- 博客(2)
- 资源 (10)
- 收藏
- 关注
原创 HiveSQL函数优化原理
更多内容,欢迎观众公众号:livandata1、group by的计算原理:代码为:SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;可以看到,group by本身不是全局变量,任务会被分到各个map中进行分组,然后再在reduce中聚合。默认设置了hive.map.aggr=true,所以会在mapper端先group by一次,最后再把结果merge起来,为了减少reducer处理的数据量。注意看explain的mode是不一样的。ma.
2021-01-21 10:28:05 975
原创 基于Pyspark进行PCA主成分分析
了解更多内容,欢迎关注公众号:livandataPyspark是近段时间笔者接触到的比较高效的大数据处理工具,他的亮点是整理出了数据分析过程中两个最高频应用的工具:pandas的DataFrame包和sklearn包,能够方便的完成数据处理及模型构建两块内容,上一篇笔者整理了Pyspark的常规用法,本篇以一个案例的形式串联一下pyspark的内容:在小数据集中构建一个PCA模型是非常方便的,DataFrame构建完成后直接调用sklearn的PCA包即可,那么,在大数据集中是否也是这样方便呢?
2021-01-21 10:05:55 1768
hadoop学习资料(一)
2018-07-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人