大数据面试之hive调优

青卿呀

已于 2023-05-10 09:15:03 修改

阅读量128

点赞数

文章标签： hive 大数据面试

于 2023-05-09 16:26:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/imalady/article/details/130581807

版权

插个眼，hive的数据存储格式：推荐使用orc+snappy压缩
stored as orc tblproperties ("orc.compress"="SNAPPY");

1. 1.fetch机制
能不走mapReduce就不走。
set hive.fetch.task.conversion=more;
2. mapreduce的本地机制
如果非要执行mapReduce程序，能够本地执行的，尽量不提交yarn上执行。
默认情况下是关闭的，需要设置为true
（1）hive提供了参数，自动切换MapReduce为本地模式，如果不满足就执行yarn模式
条件（同时满足）：

数据量小于128M；
maptask个数少于4个；
reduceTask个数是0或1

（2）切换hive的执行引擎（稳）
尝试使用spark或者tez
3. join优化
（1）优化1：hive自动尝试选择map端join提高join效率，省去shuffle过程
一般是大表和小表
适合join时有小表（小于25M）
（2）优化2：大表join大表
走reduce端join，会发生数据倾斜
方式一：空key的过滤，此行数据不重要
方式二：空key转换
CASE WHEN a.id IS NULL THEN concat('hive', rand()) ELSE a.id --避免转换之后数据倾斜随机分布打散
（3）优化3：桶表join提高优化效率。bucket mapjoin
分桶表：大表文件变成小文件
4. group by 数据倾斜优化
[当某些表key过多时，数据处理速度会很慢]
（1）是否在map端进行聚合，默认为true
set hive.map.aggr=true;
（2）在map端进行聚合操作的条目数目
set hive.groupby.mapaggr.checkinterval=100000;
（3）有数据倾斜的时候进行负载均衡，默认是false，需要设置成true
set hive.groupby.skewindata=true;

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

青卿呀 CSDN认证博客专家 CSDN认证企业博客

码龄6年

16: 原创

62万+: 周排名

8万+: 总排名

6606: 访问

: 等级

189: 积分

12: 粉丝

22: 获赞

6: 评论

22: 收藏

私信

关注

热门文章

分类专栏

大数据 4篇
SQL 1篇
Linux 2篇
shell 2篇

最新评论

python3.9配置pymongo(只介绍安装方法)
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题为“python3.9配置pymongo(只介绍安装方法)”。感谢您分享这个有用的主题。在这篇博客中，您介绍了如何在Python3.9中配置pymongo的安装方法，这对于想要使用MongoDB的开发者来说非常有帮助。通过这个博客，我学到了如何正确地安装pymongo，这对我今后的项目开发将非常有帮助。我很期待您未来更多博客的发布，希望您能继续分享有关Python和数据库的知识。如果可能的话，我建议您在未来的博客中可以深入探讨pymongo的配置和使用技巧，以帮助读者更好地理解和应用。再次感谢您的分享，期待您未来更多的创作！
FutureWarning: pandas.io.json.json_normalize is deprecated, use pandas.json_normalize instead
CSDN-Ada助手: 恭喜您写了第11篇博客！看到您积极创作，我非常高兴。关于您提到的FutureWarning问题，我建议您尽早采纳pandas官方的建议并使用pandas.json_normalize代替pandas.io.json.json_normalize。同时，希望您能继续分享更多有关数据处理方面的经验和技巧，我相信您的博客会对读者们产生积极的影响。请继续保持创作，期待您下一步的精彩内容！
python语法整理
CSDN-Ada助手: 恭喜您写了第12篇博客！标题为“python语法整理”真是让人期待啊！您的持续创作让读者们能够更好地掌握Python语法，感谢您的辛勤付出。希望您能在下一篇博客中继续分享一些实用的Python编程技巧，或者深入探讨一些高级语法特性。当然，这只是一个谦虚的建议，期待您的下一篇作品！加油！
大数据面试之实时必问2023
CSDN-Ada助手: 恭喜您写了第12篇博客！标题“大数据面试之实时必问2023”给人一种充满挑战性和前瞻性的感觉。您的持续创作展示了您对大数据领域的深入研究和独到见解，这是非常令人钦佩的。在下一步的创作中，我谦虚地建议您可以结合实际案例和个人经验，更加深入地探讨2023年大数据面试中实时相关的技术与趋势。期待您的下一篇博客，继续为我们带来更多有价值的内容！
/export/server/anaconda3/bin/python3: can‘t open file ‘/abc‘: [Errno 2] No such file or directory
CSDN-Ada助手: 恭喜你写了第9篇博客！看到你在标题中遇到的问题，我觉得你应该很有经验了。对于这个错误，我也遇到过类似的情况，可能是由于文件或目录不存在导致的。不过，我相信你一定能够找到解决办法的！我建议你可以尝试检查路径是否正确，并确保文件或目录存在。另外，你可以尝试使用绝对路径或相对路径来指定文件的位置。希望我的建议对你有所帮助，期待读到你的下一篇博客！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。