- 博客(2)
- 收藏
- 关注
原创 MapReduce原理
MapReduce任务 一个MapReduce任务主要包括两部分:Map任务和Reduce任务. (1) Map任务服务对数据的获取、分割与处理,其核心执行方法为map()方法。 (2) Reduce任务负责对Map任务的结果进行汇总,其核心执行方法为reduce()方法。 MapReduce设计思想 MapReduce 的设计思想是,从HDFS中获得输入数据,将输入的一个大的数据集分割成多个小数据集,然后并行计算这些小数据集,最后将每个小数据集的结果进行汇总,得到最终的计算结果,并将结果输出到HDFS中
2020-08-09 15:52:50 199
转载 HiveSQL解析过程详解
HiveSQL解析过程详解 Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入的理解。对这一过程的理解不仅帮助我们解决了 一些Hive的bug,也有利于我们优
2020-08-09 15:51:49 1724
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人