- 博客(1)
- 资源 (2)
- 收藏
- 关注
原创 Spark优化
1、注意join的使用,如果有较小的表可考虑使用广播的方式实现mapjoin,类似MR/HIVE。广播变量是一个executor一份副本2、注意数据倾斜的问题,这个问题在分布式shuffle操作时都有可能出现,常见几个场景:join操作空值量很多时使用随机值 cout(distinct)操作,拆分成group by 再count 对数据采样抽取出倾斜的key,单独处理,最后做union...
2018-08-28 21:08:07 691
echarts-gl.js
ECharts GL 新增了三维的笛卡尔坐标系、地理坐标系,并且在这些新的三维坐标系基础上提供了六个新的系列类型,包括 散点图 scatter3D、折线图 line3D、柱状图 bar3D、曲面图 surface、飞线图 lines3D以及地图 map3D。展示出你想要的三维可视化作品。
2018-12-15
Hadoop2.0 HA集群搭建步骤
所谓HA,即高可用,实现高可用最关键的是消除单点故障,hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA;通过双namenode消除单点故障;通过双namenode协调工作
2018-08-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人