- 博客(2)
- 收藏
- 关注
转载 Spark性能优化之数据倾斜技术方案
一:Hive的ETL优化方案应用场景:hive表数据倾斜,表中数据本身分布不均匀,频繁使用Spark对某个Hive表执行操作方案实现思路:1.通过Hive 的ETL预先对数据按照key进行聚合,或和其他表预先进行join2.生成预处理后的Hive表(数据源已经不是原来的Hive表了)3.数据已经进行了预聚合或预join,所以spark作业不用进行sh
2017-08-28 18:30:31 213
原创 Launching Spark on YARN
Launching Spark on YARNEnsure that HADOOP_CONF_DIR or YARN_CONF_DIR points to the directory which contains the (client side) configuration files for the Hadoop cluster. These configs are used to
2017-08-28 18:27:42 201
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人