hive
木木统
Sharing makes the world better!!!
分享让世界更美好!!!
展开
-
使用hive做单词统计
版权声明:本文为CSDN博主「柯南爱上指针」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/qq_35468937/article/details/80752073方法一(分步查询):1、首先创建一个文件单词的文件,例如a.txtkk,123,weiwei,123hlooe,hadoop,he...转载 2020-04-03 15:58:15 · 838 阅读 · 0 评论 -
Hive中not in函数的小坑 :含null时的判断
Hive中的not in函数有一个隐藏的陷阱,当not in() 中的数值包含NULL,匹不上的数据会返回NULL而不是True。所以当在where中使用not in子查询进行筛选,一定要记得去除NULL值。样例代码:--not in的原始结果select num,num not in (null,'2'), num not in (null,'2') and true from(...转载 2019-12-24 12:33:29 · 1835 阅读 · 0 评论 -
hive中的lateral view 与 explode函数的使用
explode与lateral view在关系型数据库中本身是不该出现的,因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分),本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),不过大数据技术普及后,很多类似pv,uv的数据,在业务系统中是存贮在非关系型数据库中,用json存储的概率比较大,直接导入hive为基础的数仓系统中,就需要经过ETL过程解析这类数据,e...转载 2019-12-24 11:59:04 · 324 阅读 · 0 评论 -
Hive去重以及group by与distinct性能的比较
在hive数据清洗这里总结三种常用的去重方式1.distinct2.group by3.row_number()eg:SELECT order_id, order_name, cate_type, modify_time,row_number() over(PARTITION BY order_id ORDER BY order_id DESC) num FROM order_...转载 2019-12-24 11:52:08 · 1205 阅读 · 0 评论 -
hive的函数定义类:org.apache.hadoop.hive.ql.exec.FunctionRegistry
hive版本:2.1.1 (hive --version)这个类中定义了hive中所有的函数,多看看别人是怎么写的源码的。注:hive的function不分大小写。原创 2019-09-18 09:47:20 · 797 阅读 · 0 评论 -
ORC File文件结构
一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描...转载 2019-09-22 16:36:45 · 2489 阅读 · 0 评论