hive
文章平均质量分 52
幡然醒悟的研二狗-致敬所有受压迫的博士
天道有轮回,我爱撸代码,拒绝读博士。
从代码中理解数学原理~~~~
展开
-
presto实操array, hive不支持此类操作
presto array:reduce操作:依次作用于元素,最终生成一个值transform操作,每个元素作操作,最终依旧是array需求:实现数组的相邻元素做差,特殊的,首个元素做差之后为0presto可以实现复杂的数组操作,但hive并不支持此类操作。****参考链接:Presto–数组函数和运算符presto 中的数组函数用法...原创 2022-05-06 17:26:03 · 2028 阅读 · 0 评论 -
group by 去重之后与count连用的坑
需求:用presto跑sql的时候,发现group by去重之后直接count不是总条数,而是按照group by key的key分组之后的条数,万万没想到啊。因为语句执行顺序是group by 再count,所以按理说不应该,但是实际上这是一个需要注意的坑,最好在外面包一层。曾一度怀疑是presto和hive语法的差异,但实际上sql就有这么一个坑。下面用三个sql例子说明例子1:例子2:因为涉及到group by执行顺序在select 之前,所以没成想它会按照key分组计数,看来g原创 2021-03-31 20:02:52 · 1782 阅读 · 0 评论 -
常用hive语句
hive中对多行进行合并—collect_set&collect_list函数原创 2021-03-17 14:58:17 · 80 阅读 · 0 评论 -
hive窗口函数
参考链接原创 2021-01-09 00:08:09 · 1149 阅读 · 0 评论 -
hive开窗函数中range和rows的区别
rows是物理窗口,是哪一行就是哪一行,与当前行的值(order by key的key的值)无关,只与排序后的行号相关range是逻辑窗口,与当前行的值有关(order by key的key的值)select id,sum(id) over(order by id) default_sum,sum(id) over(order by id range between unbounded preceding and current row) range_sum,sum(id) over(orde.原创 2021-01-08 19:54:29 · 5914 阅读 · 5 评论 -
hive企业级调优概述
文章目录1.Fetch抓取2.本地模式3.表的优化4.数据倾斜5.并行执行6.严格模式7.JVM的重用(慎用)8.推测执行(慎用)9.压缩10.执行计划1.Fetch抓取2.本地模式3.表的优化1.小表、大表Join(新版的hive已经做了优化,两者的先后顺序已经没有明显区别)2.大表Join大表空KEY过滤空KEY转换3.MapJoin4.Group By默认情况下,Map阶段的同一Key数据会分发给一个reduce,当一个key数据过大时就倾斜了,并不是所有的聚合操作都需原创 2021-01-08 19:06:59 · 1060 阅读 · 0 评论 -
hive视图和with
有些博客中说with会读入内存,看博客的评论是这么说的,感觉有道理with和union联合使用数据量过大还是重新建个表比较好原创 2020-12-24 17:23:27 · 1272 阅读 · 2 评论