spark
大数据爱好者社区
关注博主个人微信公众号:bigdata_shequ,每天会更新大数据、人工智能前沿技术!
展开
-
Spark-1.X编译构建及配置安装
前提条件(环境要求) jdk版本:1.7+ scala版本:1.10.4+ maven版本:3.3.3+本博客中使用的软件版本 spark版本:spark-1.6.1.tar.gz(源码) jdk版本:jdk-8u151-linux-x64.tar.gz maven版本:apache-maven-3.3.9.tar.gz scala版本:scala-2.10.4.tgz以上软件都...原创 2018-05-09 10:37:44 · 224 阅读 · 0 评论 -
Spark性能优化的10大问题及其解决方案
转自: http://book.51cto.com/art/201409/453045.htm 问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太少,任务运行缓慢。问题2:shuffle磁盘IO时间...转载 2018-06-24 22:03:48 · 370 阅读 · 0 评论