hive优化

最新推荐文章于 2023-05-12 11:24:14 发布

kerryJiang666

最新推荐文章于 2023-05-12 11:24:14 发布

阅读量68

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33009107/article/details/118304642

版权

大数据专栏收录该内容

36 篇文章 1 订阅

订阅专栏

1.jobs数比较多的作业运行效率比较低
2.sum，count，max,min等UDAF,hadoop优化不怕数据倾斜问题
3.set hive.groupby.skwindata=true(通用算法，不能适应特定业务背景)
4.根据数据量合理设置mapreduce的task数
5.对小文件
6.列裁剪
7.分区裁剪

排序优化
distribute by：现在组内分组sort by，然后再order by
order by：实现全组排序，一个reduce实现，效率低
Sort by ：实现部分有序，单个reduce输出的结果是有序的，效率高，通常和DISTRIBUTE BY关键字一起使用（DISTRIBUTE BY关键字可以指定map 到 reduce端的分发key）
CLUSTER BY： col1 等价于DISTRIBUTE BY col1 SORT BY col1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive优化

1.jobs数比较多的作业运行效率比较低2.sum，count，max,min等UDAF,hadoop优化不怕数据倾斜问题3.set hive.groupby.skwindata=true(通用算法，不能适应特定业务背景)4.根据数据量合理设置mapreduce的task数5.对小文件6.列裁剪7.分区裁剪...
复制链接

扫一扫

专栏目录

kerryJiang666 CSDN认证博客专家 CSDN认证企业博客

码龄8年

58: 原创

12万+: 周排名

122万+: 总排名

6万+: 访问

: 等级

1216: 积分

7: 粉丝

14: 获赞

10: 评论

53: 收藏

私信

关注

热门文章

分类专栏

大数据 36篇
笔记
scala 1篇
python 5篇
vue
java 9篇
个人 7篇
docker 1篇

最新评论

linux下如何快速搭建FastDFS文件系统
东洋老柯: 下面是完整正确代码要去掉原文undefined） location /group1/M00 { alias /home/fastdfs/file/data; } 是添加在http{}里面的server{}里面不用删除别的location
linux下如何快速搭建FastDFS文件系统
东洋老柯: 在配置客户端哪里：你这串base_path=/ljzsg/fastdfs/client 是不是应该改成：base_path=/home/fastdfs/client
linux下如何快速搭建FastDFS文件系统
东洋老柯: 最后添加那行具体添加到哪里 http里面的server里面也有location要删除吗
namenode启动不起来
顾昀昀: 我之前不知道格式化不能那么多次，然后现在还是启动不了namenode怎么办啊，查日志一直说文件是不存在的
flink的异常数据一定要处理
kerryJiang666: 咋了，我只是提醒下自己

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。