spark-submit到yarn上遇到的各种坑
1、
后面没有搬动code,就没重新下载库了,而且每次package速度很快,1秒左右
2、
后来就上传一个3KB的文件,边上传边google
发现有这样的消息:
一般hadoop集群的瓶颈都在网络方面。hadoop集群用百兆网卡你在逗我。。。另外交换机也得是千兆的
链接为:https://www.zhihu.com/question/21588815
1、
对于sbt package
稍微搬动了code的位置,又要重新下载lib,所以不要移动代码位置。后面没有搬动code,就没重新下载库了,而且每次package速度很快,1秒左右
2、
175MB大小的文件上传到hdfs一直卡住,思考原因:
权限问题?路径问题?磁盘容量问题?后来就上传一个3KB的文件,边上传边google
发现有这样的消息:
一般hadoop集群的瓶颈都在网络方面。hadoop集群用百兆网卡你在逗我。。。另外交换机也得是千兆的
链接为:https://www.zhihu.com/question/21588815
所以,猜测交换机太慢,果然,这个交换机10兆的带宽,神坑
不得不吐槽,选科研project前好好考察设备比较好。
3KB的文件不到5s就上传好了