大数据HIVE高频面试题

最新推荐文章于 2024-07-19 17:17:26 发布

A_xin学java

最新推荐文章于 2024-07-19 17:17:26 发布

阅读量311

点赞数 3

文章标签：大数据 hive hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_49974844/article/details/139782564

版权

一、MapReduce执行原理

Map主要负责数据的读取，同时对读取的数据进行逻辑处理获取到k-v键值对，然后根据
key的值判断数据属于哪个分区，也就是说将一个大的数据文件切分成多份。Raduce负责从Map端拉取数据并对数据按照分区进行存放，每一个分区对应一个Raduce，之后再进行数据结果的输出，但其实Map和Reduce中间还存在一个Shuffle过程，suffle会对map分割的数据块进行按分区排序处理然后在读取数据达到自身容量百分之八十的时候开始对Reduce端进行数据输出
Reduce则对已排好序的数据根据业务需求做进一步的处理。

二、hive的架构以及执行流程是什么？

hive是一个数仓管理工具，可以将hfs中的数据文件转换成数据表格的形式进行输出，hive的架构主要分为 metastore client mapreduce hdfs ，hive客户端可以根据用户编写的hql去解析用户的需求，然后根据去求去meta store中获取相关元数据，从而通过元数据用mapreduce去对hdfs中的数据进行读取和处理，最终以数据表格的形式呈现给用户。

三、什么是数据倾斜，导致数据倾斜发生的原因是什么?当数据倾斜发生后如何处理数据倾斜？

简单的讲，数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了一个或者几个分区上计算，造成数据倾斜问题，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。

导致数据倾斜的主要原因有如下几方面：

1、数据的key值分布不均，导致大量数据分配到同意分区

2、sql语句导致数据倾斜（如jion，group by 等等）

3、业务数据本身特性（如电商平台中的爆款商品）

如何解决数据倾斜？

1、在map端进行负载均衡的相关设置（set hive.map.aggr=true ;set hive.groupby.skewindata=true）

ps:负载均衡的原理利用随机分配将相同分区的key值分配到不同的reduce中进行聚合处理将数据打散，聚合在成之后再有第二轮的mapreduce来对key值进行分区处理，即可规避掉数据倾斜问题。

2、优化相关SQL语句

3、增加reduce数量

修改reduce数量的方法：在hadoop的mapred-default.xml中修改

set mapreduce.job.reduces=15 即每个job的reduce数量为15

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
大数据HIVE高频面试题

简单的讲，数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了一个或者几个分区上计算，造成数据倾斜问题，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。
复制链接

扫一扫

A_xin学java CSDN认证博客专家 CSDN认证企业博客

码龄4年

17: 原创

149万+: 周排名

7万+: 总排名

7106: 访问

: 等级

294: 积分

104: 粉丝

124: 获赞

2: 评论

125: 收藏

私信

关注

热门文章

最新评论

Jquery学习
CSDN-Ada助手: 恭喜您写了第三篇博客！标题为“Jquery学习”，看来您对Jquery有浓厚的兴趣。不断创作是提高技能的好方法，希望您能继续坚持写作，分享更多关于Jquery的知识和经验。下一步，或许您可以考虑深入研究Jquery的高级用法，或者结合实际项目，分享一些实战经验。谦虚地说，我相信您的经验会对其他读者有所启发，期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Spring框架之注解的使用（包括原始注解和新注解）
CSDN-Ada助手: 非常棒的博文！你对Spring框架注解的使用进行了详细的介绍，这对于想要深入学习Spring的人来说非常有帮助。我鼓励你继续写作，分享更多关于Spring框架的知识。除了你提到的原始注解和新注解，还有一些与该博文相关的扩展知识和技能可以进一步探索。例如，你可以介绍更多关于Spring注解的常见用法，比如@Autowired注解的使用以及如何使用@Qualifier注解解决依赖注入的歧义性问题。此外，你还可以讨论一下自定义注解的使用，以及如何使用注解来实现AOP（面向切面编程）。希望我的建议对你有所帮助，期待看到更多精彩的博文！谢谢你的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Spring 通过注解的方式配置C3P0数据源
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/617777173。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。