hive使用总结

最新推荐文章于 2023-06-01 13:05:41 发布

forever_ai

最新推荐文章于 2023-06-01 13:05:41 发布

阅读量1.6k

点赞数

分类专栏： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/An342647823/article/details/40114289

版权

hive 专栏收录该内容

27 篇文章 1 订阅

订阅专栏

从接触hive到今天也快一年了，把工作中的用到一些经验如下：

1)牢记一点hive只是一个基于hadoop的数据仓库工具，把sql转换成mapreduce，它的强项在于数据统计、方便灵活开发测试，对于复杂的etl逻辑建议用临时表分阶段去处理或者编写mapreduce程序处理。

2)关注hive sql是否造成数据倾斜。解决数据倾斜的办法。了解你的数据分布如：是否某些key是其他key的多倍，或者关联的key为空等等。

3)稳定的调度系统非常重要。因为hive,tez运行的时候可能造成意外的错误，所以调度系统对已经上线的脚步自动重跑2,3遍就非常的好。

4)perl,python脚步运行hql尽量一个脚步运行一段hql，对于意外发生的错误追数方便很多。

5)尽量理解hql怎么转化成mapreduce的，有助于性能调优、排错等。

6)尽早的过滤数据。不单单指某条hql过滤数据，而是从整体架构中考虑如何过滤数据。我们点击流日志每天17亿条(800G)左右的日志，选择过滤日志的方法就是，按日志类型拆分、一天一个分区、不同的业务类型拆分等相关手段。这样按日汇总、按月汇总数据容易很多。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive使用总结

hive使用总结
复制链接

扫一扫

专栏目录

forever_ai CSDN认证博客专家 CSDN认证企业博客

码龄15年

54: 原创

6万+: 周排名

1万+: 总排名

92万+: 访问

: 等级

7506: 积分

231: 粉丝

103: 获赞

44: 评论

277: 收藏

私信

关注

热门文章

分类专栏

java 30篇
flex 1篇
数据挖掘
linux 11篇
综合 4篇
etl 23篇
数据库 77篇
database 1篇
数据库异常收集
hive 27篇
hdfs 2篇
perl 1篇
storm 2篇
flume 2篇
消息队列 1篇
运营 3篇
大数据 16篇
日志 1篇
python
数据仓库 12篇
spark 1篇

最新评论

滴滴基于 Flink 的实时数仓建设实践
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
oracle over函数详解
haifengdl: 厉害
TortoiseSVN官方中文语言包下载
ZKY_24: 赞
oracle求同比，环比函数 LAG和LEAD
qq_35475661: SELECT EMPLOYEENO ,YEARMONTH ,SALARY ,MIN(SALARY) KEEP(DENSE_RANK FIRST ORDER BY YEARMONTH) OVER(PARTITION BY EMPLOYEENO) FIRST_SALARY -- 基比分析 salary/first_salary ,LAG(SALARY, 1, 0) OVER(PARTITION BY EMPLOYEENO ORDER BY YEARMONTH) AS PREV_SAL -- 环比分析，与上个月份进行比较 ,LAG(SALARY, 12, 0) OVER(PARTITION BY EMPLOYEENO ORDER BY YEARMONTH) AS PREV_12_SAL -- 同比分析，与上个年度相同月份进行比较 ,SUM(SALARY) OVER(PARTITION BY EMPLOYEENO, SUBSTR(YEARMONTH, 1, 4) ORDER BY YEARMONTH RANGE UNBOUNDED PRECEDING) LJ --累计值 FROM SALARYBYMONTH ORDER BY EMPLOYEENO ,YEARMONTH
Hadoop中MapReduce多种join实现实例分析
houzhanshanlinzhou: 写的非常好，简单清晰

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。