pyspark踩坑心得

最新推荐文章于 2020-10-12 11:50:12 发布

BlackZero13

最新推荐文章于 2020-10-12 11:50:12 发布

阅读量653

点赞数 1

分类专栏：常见问题 spark 文章标签： pyspark spark-submit deploy-mode

本文链接：https://blog.csdn.net/weixin_32087115/article/details/107334095

版权

常见问题同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

spark

1 篇文章 0 订阅

订阅专栏

最近用了一下pyspark相关的API，感觉上手还是很简单的，但是纸上谈兵终究如浮云，真正实操的时候还是错误百出，下面记录两个踩过的坑，仅供新手参考，大佬可略过。

1. spark-submit

相信你应该会遇到下面这个问题：

Exception in thread "main" org.apache.spark.SparkException: Application application_1591080725627_2156881 finished with failed status
	at org.apache.spark.deploy.yarn.Client.run(Client.scala:1165)
	at org.apache.spark.deploy.yarn.YarnClusterApplication.start(Client.scala:1520)
	at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:879)
	at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:197)
	at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:227)
	at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:136)
	at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

仔细检查-- deploy-mode 的参数设置，是client还是cluster。client模式下可以调试，所以会报语法或者相关的详细错误，cluster模式是在集群状态下跑，所以尽量在client的模式下调通之后再放在集群上跑。

2. 检查hadoop hdfs的路径

hadoop规定写入文件的时候不允许有重名文件，所以检查一下输出文件的hdfs路径是否已经存在。

3. 检查linux权限组是否排异

A具有代码的访问权限，B具有hdfs的访问权限，以A权限运行脚本代码写入B权限下的hdfs，也是写不成功的。

4.别人查错的方法

https://wchch.github.io/2018/12/27/%E8%A7%A3%E5%86%B3pyspark%E9%83%A8%E7%BD%B2%E6%A8%A1%E5%BC%8F%E7%94%B1client%E5%88%87%E6%8D%A2%E6%88%90cluster%E6%8A%A5%E9%94%99%E7%9A%84%E9%97%AE%E9%A2%98/

BlackZero13

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pyspark踩坑心得

最近用了一下pyspark相关的API，感觉上手还是很简单的，但是纸上谈兵终究如浮云，真正实操的时候还是错误百出，下面记录两个踩过的坑，仅供新手参考，大佬可略过。1.spark-submit相信你应该会遇到下面这个问题：Exception in thread "main" org.apache.spark.SparkException: Application application_1591080725627_2156881 finished with failed status at .
复制链接

扫一扫