spark
慢点走
这个作者很懒,什么都没留下…
展开
-
spark executor内存足够使用,却报错SparkOutOfMemory: Unable to acquire xxx bytes of memory,如何解决?是否与coalesce有关?
文章目录问题描述解决办法问题描述 从spark查出来数据后可以再次保存到hive中。当数据量不是很大的时候,为了避免产生过多小文件,可以使用重分区来解决。 重分区有两个方法:coalesce 和 repartition 。本文重点不是介绍这两个方法,所以大概说一下区别:coalesce 不需要shuffle, 而 repartition 需要 shuffle。而为原创 2020-12-23 21:56:13 · 1767 阅读 · 0 评论 -
使用spark sql查询hive数据后,如何增加列?如何获取指定的列?
在日常工作中,使用spark sql可以在hive中查询数据并得到一个DataFrame类型的对象。 &nb原创 2020-12-21 21:51:47 · 2258 阅读 · 0 评论 -
使用hue oozie运行spark程序,appName不生效
最近公司要求使用hue oozie来管理spark的定时任务。配置并运行spark项目后,虽然项目成功启动了,但是在yarn上查看任务的时候,却发现applicationName与oozie设置的appName完全不一样。 举个例子:oozie中设置的appName是test123,但是在yarn中查看到的applicationName是abc456。原创 2020-11-29 21:29:28 · 359 阅读 · 0 评论 -
使用spark读取hadoop文件的具体内容
在一些情景下,需要用spark读取hadoop的文件的具体内容,这里做一下简单介绍。pom.xml pom.xml如下:<dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-j原创 2020-07-03 17:46:52 · 1418 阅读 · 0 评论 -
spark项目,读取或写入elasticSearch数据,报错NoClassDefFoundError: org/apache/logging/log4j的解决办法
文章目录添加es的jar包NoClassDefFoundError: org/apache/logging/log4j/util/ReflectionUtil 的解决办法 在用maven进行spark开发时,如果使用离线批处理,一般都有添加spark-core的jar包。<dependency> <groupId>org.apache.spark</groupId> <artifactId原创 2020-07-01 18:25:44 · 2500 阅读 · 0 评论