Bigdata_Spark
文章平均质量分 57
分享一些在spark开发过程中遇到的问题及总结
KeinoJust
敷衍别人就是敷衍自己,如果对自己的输出尚且不认真,那么是没有人愿意停下脚步去欣赏的,你若盛开,蝴蝶自来~
展开
-
【Hive】【Odps】如何将collect_list的结果转化为String
在spark_sql中,将collect_list的类型转化为string,只需要使用cast函数,但是在离线平台中,是不支持Array转化为string,所以需要借助另外一个函数:在聚合字段时,查询时将collect_list前使用concat_ws函数,这样该字段就转化为string了...原创 2022-06-08 21:17:33 · 3057 阅读 · 0 评论 -
【Spark】执行join或者groupby时报错 Futures timed out after [XXX seconds]
使用spark进行大数据分析时遇到的一些问题原创 2022-06-08 21:13:50 · 738 阅读 · 0 评论 -
为什么【spark】使用【org.json4s.jackson】报错
spark使用json4s包报错报错代码:报错信息:排查问题:报错代码:import org.apache.spark.ml.feature.BucketedRandomProjectionLSHimport org.apache.spark.ml.linalg.Vectorsimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions.colval dfA = spark.createDataFra原创 2022-01-03 10:45:57 · 1859 阅读 · 0 评论 -
为什么【Spark UI】界面里【stdout】显示是【乱码】
spark ui界面日志中文乱码问题:解决:排查:重新提交:代码层面:问题:spark开发中难免需要打印一些日志来调试程序是否按照预期在正常工作,于是一般会在代码中通过定义指定日志来判断,当开发中打印【中文】日志的时候,发现spark ui界面stdout和stderr里关于中文都是乱码。解决:这里先说解决方案,着急的同学们可以先修改代码,然后慢慢往下看排查过程。spark-submit提交的时候,增加如下两个配置,就可以在ui界面正常查看中文标志--conf spark.executor.ex原创 2021-12-15 10:09:53 · 777 阅读 · 0 评论 -
为什么DataFrame多条件关联报错
DataFrame多条件join前提:使用:前提:在spark集成数仓开发中,一般会使用spark-core和spark-sql一起协同开发,当有些场景为了处理方便,就会提前将DF转化为内存表,但是有时候可能并不需要转化,就直接使用了DF进行一些内置算子也可以实现SQL的功能,这就是spark中org.apache.spark.sql中所包含的功能。使用:在使用两个DF关联的时候,可以指定多条件,如下:⚠️⚠️⚠️注意:这种方式是错误的,”===” 方式连接也只适用于单条件的关联// 01) 加原创 2021-12-14 16:29:55 · 955 阅读 · 0 评论 -
spark集成odps后排查报错日志
spark of odps 的日志报错排查logview寻找报错executorspark UI开源的spark估计大多人都会使用ui界面来排查日志。但是odps【阿里云】集成的spark,当提交了任务之后,有些时候控制台都打印报错了,但是点击UI界面发现每一个executor都是成功的,没有失败的。下面就一起来看看吧????logview排查日志的第一个界面。点击图中Detail,便可以看到如下界面,之后点击红圈处便可以看到具体的日志。寻找报错executor一般排查问题都需要寻找报错原创 2021-12-11 12:20:36 · 1254 阅读 · 0 评论 -
同个spark任务在数据量变大时任务抛出错误
数据量增大导致的OOM业务需求分词方法打包运行报错增加资源:自查代码代码优化:问题解决业务需求使用spark集成数仓,并对数仓中的文章视频关键标题及标签字段进行分词分词方法使用Hanlp工具包进行分词:如下是一开始实现的分词逻辑/** * 定义分词函数 * * @param elements * @return */ def separate(elements: Iterator[VideoInfo]): Iterator[VideoWords] = { va原创 2021-12-11 12:09:05 · 1901 阅读 · 0 评论 -
spark写文件到odps报错异常
spark读写odps异常报错信息:问题现象:排查原因:解决:报错信息:ERROR ApplicationMaster: User class threw exception: java.io.IOException: GetFileMeta PANGU_CAPABILITY_NO_PERMISSION PANGU_CAPABILITY_NO_PERMISSION PanguPermissionException When GetFileMeta问题现象:1)本地idea环境下执行可以写成功2原创 2021-12-08 17:25:58 · 2209 阅读 · 0 评论