大数据之HIVE，一次HIVESQL执行的过程（四）

最新推荐文章于 2024-08-01 08:57:51 发布

梦想一直在路上

最新推荐文章于 2024-08-01 08:57:51 发布

阅读量607

点赞数 9

文章标签：大数据 hive hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wb_zjp283121/article/details/139352953

版权

在hive中执行如下sql

INSERT OVERWRITE TABLE XXX
SELECT * from XXX

数据最终是怎么存储到hdfs上的过程

执行的过程当中,打印出如下的日志过程,本质上是一个在MapReduce中进行Shuffle的过程

所以下面就Shuffle的过程进行分析

Shuffle 描述的是数据从 Map 端到 Reduce 端的过程，大致分为排序（sort）、溢写（spill）、合并（merge）、拉取拷贝（Copy）、合并排序（merge sort）这几个过程，大体流程如下：

上图的 Map 的输出的文件被分片为红绿蓝三个分片，这个分片的就是根据 Key 为条件来分片的，分片算法可以自己实现，例如 Hash、Range 等，最终 Reduce 任务只拉取对应颜色的数据来进行处理，就实现把相同的 Key 拉取到相同的 Reduce 节点处理的功能。下面分开来说 Shuffle 的的各个过程。

注意:

sqoop import实际上是把数据存放到hdfs对应路径上了，而不是“直接导入表里”，
查询时，hive会从hdfs的路径上提取数据，再根据hive表的结构和定义，来向我们展示出类似表格的形式。

梦想一直在路上

关注

9
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

梦想一直在路上 CSDN认证博客专家 CSDN认证企业博客

码龄7年

420: 原创

3万+: 周排名

6163: 总排名

63万+: 访问

: 等级

9472: 积分

335: 粉丝

460: 获赞

77: 评论

840: 收藏

私信

关注

热门文章

分类专栏

最新评论

大数据之FlinkCDC
征途黯然.: It's truly outstanding, 大数据之FlinkCDC article is very impressive.
大数据之Schedule调度错误(一)
普通网友: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
mysql-读写分离，导致数据不一致问题
嗨森bao: 图片丢失了
Java之List集合两种排序的性能比较(抛开数据量谈性能都是耍流氓)
是奉壹啊: 你这个样本应该要用两个list吧，或者第2次排序之前要打乱
责任链设计模式
CSDN-Ada助手: 感谢您的分享，责任链设计模式是一种非常实用的设计模式，对于软件开发中的“解耦”非常有帮助。我们鼓励您继续分享您的技术，为CSDN社区贡献更多有价值的内容。作为下一步的建议，我们希望您可以撰写一篇关于“单例模式”的技术博文，分享您的实战经验和心得。期待您的精彩文章！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。