spark-hadoop安装避坑&spark 开发环境避坑

最新推荐文章于 2022-10-08 22:07:55 发布

厉害了我的汤

最新推荐文章于 2022-10-08 22:07:55 发布

阅读量295

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YD_2016/article/details/111292702

版权

1、在配置hadoop时不要将HADOOP_CONF_DIR加入到PATH中去，否则会造成只能从hdfs中读数，要从本地读数的就没了

2、使用spark-submit时，jar包中（或脚本文件中）的master会覆盖shell的master参数，因此当发现spark程序占用异常时，可查下这两处的配置！！！

3、standalone模式下使用：
–conf spark.cores.max=32 --executor-memory 2g --executor-cores 32来控制CPU和内存资源，如上executor的数量为"spark.cores.max=32"/–executor-cores 32=1，内存使用为1*2=2g。否则，默认情况下会满核使用。

4、spark关于在jupyter中使用scala的安装配置，我用过两种方式，

Apache Toree
这个比较方便，安装时不会下载其他依赖的包，直接套用spark安装包中的scala，启动jupyter时配置sparkcontext参数即可，比较轻量
almond
这个相对上面来讲会下载很多依赖包，并且要让almond的版本和spark-scala的版本对齐，不能乱下，我当时使用这个是因为上面那种方案jupyter的cell输出中和后台shell中没有任何的报错信息，调试不了才用的这个，很玄学。

厉害了我的汤

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark-hadoop安装避坑&spark 开发环境避坑

1、在配置hadoop时不要将HADOOP_CONF_DIR加入到PATH中去，否则会造成只能从hdfs中读数，要从本地读数的就没了2、使用spark-submit时，jar包中（或脚本文件中）的master会覆盖shell的master参数，因此不用写shell中的master参数，但这样又会造成shell中的后续参数失效（不写或者与jar包中的master不一致会导致shell后续参数失效），因此这两处的mater必须一直！！！3、standalone模式下使用：–conf “spark.core
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。