![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
空谷人
明天的幸福,总是要今天来拼搏的
展开
-
scala的正则使用之Regex
scala开发中常用的正则匹配方法原创 2022-01-29 16:18:39 · 1371 阅读 · 0 评论 -
spark运行在windows环境的idea遇到的问题记录
关于在windows环境开发spark时,遇到的一些环境问题,作一下记录这次只了两点记录,如下:1、Couldn't find pwsh.exe or powershell.exe2、Could not locate executable null\bin\winutils.exe in the Hadoop binaries前提:由于机器使用已久,申请了一台新的笔记本 ,各种环境都需要重新安装,确实是头大啊,需要准备各种安装软件一、问题1的解决方案1、新本到手后,下载了新版原创 2022-01-26 11:35:12 · 1839 阅读 · 0 评论 -
StructuredStreaming处理时参数checkpointLocation配置
问题记录:在spark进行实时计算时,通过Kafka读取数据写到mysql中,由于本地测试环境提交任务可以正常执行,但是在生产环境总是报如下错误,提示文件找不到,但是查看又不是具体的配置文件或jar包类文件,一时摸不清头脑了,后来通过错误日志的 trace找到原因。原来生产环境是强制要求在写流时,添加参数checkpointLocation,最终问题得以解决错误信息:Showing 4096 bytes. Click here for full logamenode.dfs.test.ne原创 2021-12-17 11:05:34 · 2499 阅读 · 0 评论 -
spark将RDD解析字段转为dataFream
在spark中,将datafream数据源解析为RDD后,通过添加对应的字段信息,再转换为dataFream,直接上代码,记录下package com.ku.testimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types._import org.apache.spark.sql.{DataFrame, Row, SparkSession}import scala.collection.mutableobject原创 2021-11-11 21:24:47 · 1512 阅读 · 0 评论 -
在spark计算RDD[Row]动态增加字段
关于在计算中,动态添加字段处理方式,参考网上的方式,进行整理如下,作个记录package com.ku.testimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.catalyst.expressions.GenericRowWithSchemaimport org.apache.spark.sql.types._import org.apache.spark.sql.{DataFrame, Row, SparkSession原创 2021-11-11 20:41:28 · 2444 阅读 · 0 评论 -
spark scala读取http数据信息
读取文件的多种方式:1、spark直接读取http数据,直接生成DataSet2、InputStreamReader3、Source.fromInputStreampackage com.ku.testimport java.io.{BufferedReader, InputStreamReader}import java.net.{URL, URLConnection}import org.apache.http.client.methods.HttpGetimport or原创 2021-11-09 21:47:28 · 3105 阅读 · 1 评论