hive
数往知来
数据人生
展开
-
Hive中的union与union all的区别
1.union all 和union的使用及区别 1.首先需要注意的是:在hive 0.12.0版本以前,union只能在子查询中使用。在hive 1.2.0版本以前,Hive只支持union all而不支持union(需观察当前生产hive版本是否支持)。union的使用语法如下:select_statement UNION [ALL | DISTINCT] select_state...原创 2020-04-21 16:07:01 · 9159 阅读 · 0 评论 -
Hive之count (distinct)剖析与优化
市场部小姐姐:我的sql为啥这么慢呀?原创 2020-04-11 00:17:14 · 2996 阅读 · 0 评论 -
Hive之lateral view和explode的使用详解
关于explode函数explode()其实就是一个UDTF——用户自定义表生成函数,而表生成函数官方定义是接受零个或多个输入,产生多列或多行的输出,就像explode的含义一样,生成爆炸一样的效果,将数据散开。explode()一般接受Array类型的数组为入参,对数据中的元素进行迭代,再返回多行结果,比如:返回结果为:为了更好的切合实际运用和大家理解,我使用一个生产中的字段格式,该...原创 2019-12-11 10:06:46 · 1279 阅读 · 0 评论 -
Hive之get_json_object函数
–使用场景在实际采集场景中,主动采集或被动推送的文件字段可能含有json串,此类多是爬虫数据或是日志数据,hive提供了一类json解析函数在对此类数据通过进行预处理和清洗,此篇介绍get_json_object函数–数据准备此时DW中存在一张的DWD表,其中包含了json对象的字段(此表其实仍属于一类业务过程的事实表,只是字段包含了json对象,所以是存放在DWD层,而不是在ODS做处理)...原创 2019-11-29 10:07:03 · 3105 阅读 · 0 评论