pyspark踩坑心得

最近用了一下pyspark相关的API,感觉上手还是很简单的,但是纸上谈兵终究如浮云,真正实操的时候还是错误百出,下面记录两个踩过的坑,仅供新手参考,大佬可略过。

1. spark-submit

相信你应该会遇到下面这个问题:

Exception in thread "main" org.apache.spark.SparkException: Application application_1591080725627_2156881 finished with failed status
	at org.apache.spark.deploy.yarn.Client.run(Client.scala:1165)
	at org.apache.spark.deploy.yarn.YarnClusterApplication.start(Client.scala:1520)
	at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:879)
	at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:197)
	at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:227)
	at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:136)
	at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

仔细检查-- deploy-mode 的参数设置,是client还是cluster。client模式下可以调试,所以会报语法或者相关的详细错误,cluster模式是在集群状态下跑,所以尽量在client的模式下调通之后再放在集群上跑。

2. 检查hadoop hdfs的路径

hadoop规定写入文件的时候不允许有重名文件,所以检查一下输出文件的hdfs路径是否已经存在。

3. 检查linux权限组是否排异

A具有代码的访问权限,B具有hdfs的访问权限,以A权限运行脚本代码写入B权限下的hdfs,也是写不成功的。

4.别人查错的方法

https://wchch.github.io/2018/12/27/%E8%A7%A3%E5%86%B3pyspark%E9%83%A8%E7%BD%B2%E6%A8%A1%E5%BC%8F%E7%94%B1client%E5%88%87%E6%8D%A2%E6%88%90cluster%E6%8A%A5%E9%94%99%E7%9A%84%E9%97%AE%E9%A2%98/

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值