HIVE相关
迷惘的小行星
这个作者很懒,什么都没留下…
展开
-
HiveSQL语句中SELECT,FROM,WHERE,GROUP BY,LIMIT,ORDER BY的执行顺序
1.from2.where3.group by4.order by5.limit6.select原创 2021-01-22 22:31:04 · 1348 阅读 · 2 评论 -
hive中处理数据倾斜
1.count(distinct)当某key的值过多时,处理此key的reduce非常耗时,因为只有一个reduce任务解决办法:将值为空的情况单独处理,如过滤空值的行,在最后结果中加12.不同类型关联产生数据倾斜如int类型和string类型做join操作时,reduce非常耗时,只有一个reduce解决办法:把int类型转换成string类型3.开启数据倾斜负载均衡set hive.groupby.skewindata=true处理过程:生成两个MRJob,先随机分发处理,再通过key原创 2022-05-12 22:12:13 · 365 阅读 · 0 评论 -
Hive常用函数介绍
1.instr搜索字符串中指定字符出现的位置,如果没有找到则返回0instr("abcd",'b')结果22.substrsubstr("abcdef",1,3) absubstr("abcdef",4)字符串截取函数,截取指定字符串的内容,若字符串后的参数个数为2,则截取1-3位置(初始位置为0)的字符串;若...原创 2022-01-18 16:35:49 · 1227 阅读 · 0 评论 -
Hive使用中经常用到的SQL
1.表创建1.1方式1create table t1(org_id int,banner string,pv int,uv int)partitioned by(day_id string) ##分区row format delimited fields terminated by '\t'stored as textfile;1.2方式2create table t2 as select * from t1;1.3方式3create table t2 li原创 2022-01-09 15:25:17 · 945 阅读 · 0 评论