大数据-spark
文章平均质量分 73
大数据之spark
Marcel Lou
这个作者很懒,什么都没留下…
展开
-
spark执行优化——依赖上传到HDFS二(-conf spark.yarn.dist.jars或者--jars 的使用)
1.说明之前整理过一篇类似文章,但是这个spark.yarn.jar配置的目录最好只是放spark jars目录下的jar包,如果放入其他的jar包,很大概率会有冲突,而且如果项目比较多,jar包引入的内容版本不尽相同,也不太利于管理。题主这里有一个spark的分析项目,引入了很多依赖,如果只是配置了spark.yarn.jars,上传jar包的过程仍然很慢,所以还是需要把项目的依赖jar包上传到HDFS,经过查阅资料和翻查官网,发现了application-jar , --jars 都是即可以使用本地也原创 2021-08-26 15:45:24 · 3458 阅读 · 1 评论 -
SparkSQL读写备份还原后的表报错UnknownHostException: nameservice01
问题背景使用的是Ambari 2.7.3大数据平台,原本集群要开启namenode高可用,但是因为某些搞不定的原因重新安装了集群,针对Hive数据做了备份,然后在当前集群环境做了数据恢复。所有的数据通过Hive都可查询。但是有程序执行读写Hive数据的时候报错UnknownHostException: nameservice01,具体如下Caused by: java.lang.IllegalArgumentException: java.net.UnknownHostException: namese原创 2021-07-14 16:23:43 · 634 阅读 · 0 评论 -
spark执行优化——依赖上传到HDFS(spark.yarn.jar和spark.yarn.archive的使用)
一、简述使用yarn的方式提交spark应用时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 看到输出的日志在输出Neither spark.yarn.jars nor spark.yarn.archive is set;一段指令后,会看到不停地上传本地jar到HDFS上,内容如下,这个过程会非常耗时。可以通过在spark-defaults.conf配置里添加spark.yarn.archive或spark.yarn.jars来缩小spark应用的启动时间。 Wi原创 2020-12-01 15:53:02 · 7180 阅读 · 0 评论