MapReduce实现SQL的操作原理

最新推荐文章于 2022-01-07 09:19:25 发布

follweme888

最新推荐文章于 2022-01-07 09:19:25 发布

阅读量159

点赞数

分类专栏：大数据文章标签： mapreduce

原文链接：https://blog.csdn.net/paicMis/article/details/79168089?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-4.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-4.nonecase

版权

大数据专栏收录该内容

18 篇文章 0 订阅

订阅专栏

本来想讲一下hive的一条SQL怎么转换成MapReduce的，但是想了一下还是先讲讲一条SQL语句怎么用MapReduce来执行

join的实现原理

select ply.policy_date,sale.ply_sale_name from ply_base_info ply join ply_sale sale on ply.policy_no=sale.policy_no
 
 
 
 1

在map的输出value中为不同表的数据打上tag标记，在reduce阶段根据tag判断数据来源。MapReduce的过程如下
这里写图片描述

Group By的实现原理

select policy_date,policy_type,count(1) from ply_base_info
 
 
 
 1

将GroupBy的字段组合为map的输出key值，利用MapReduce的排序，在reduce阶段保存LastKey区分不同的key。MapReduce的过程如下
这里写图片描述

Distinct的实现原理

select policy_date,count(distinct policy_type) from ply_base_info
 
 
 
 1

当只有一个distinct字段时，如果不考虑Map阶段的Hash GroupBy，只需要将GroupBy字段和Distinct字段组合为map输出key，利用mapreduce的排序，同时将GroupBy字段作为reduce的key，在reduce阶段保存LastKey即可完成去重
这里写图片描述

如果有多个distinct字段呢，如下面的SQL

select policy_date,count(distinct policy_type),count(distinct channel) from ply_base_info
 
 
 
 1

实现方式有两种：
（1）如果仍然按照上面一个distinct字段的方法，即下图这种实现方式，无法跟据policy_type和channel分别排序，也就无法通过LastKey去重，仍然需要在reduce阶段在内存中通过Hash去重
这里写图片描述

（2）第二种实现方式，可以对所有的distinct字段编号，每行数据生成n行数据，那么相同字段就会分别排序，这时只需要在reduce阶段记录LastKey即可去重。
这种实现方式很好的利用了MapReduce的排序，节省了reduce阶段去重的内存消耗，但是缺点是增加了shuffle的数据量。
需要注意的是，在生成reduce value时，除第一个distinct字段所在行需要保留value值，其余distinct数据行value字段均可为空。
这里写图片描述

url:https://tech.meituan.com/hive-sql-to-mapreduce.html

follweme888

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce实现SQL的操作原理

本来想讲一下hive的一条SQL怎么转换成MapReduce的，但是想了一下还是先讲讲一条SQL语句怎么用MapReduce来执行join的实现原理select ply.policy_date,sale.ply_sale_name from ply_base_info ply join ply_sale sale on ply.policy_no=sale.policy_no1在map的输出value中为不同表的数据打上tag标记，在reduce阶段根据tag判断数据来源。MapReduce的过程如.
复制链接

扫一扫