hive
文章平均质量分 75
神龙龙
一只专心学习的龙
展开
-
Hive的优化
所谓的调优就是在总资源不变的情况下尽可能提高job执行的效率 无外乎cpu的负载优化磁盘网络io一、压缩 1)数据源压缩:我们业务中ods层使用了snappy压缩 虽然不支持切片但是由于我们的hdfs sink控制了滚动大小128M所以用户行为数据不涉及切片问题 数据量还是很小的 2)输入端 mapper端 reducer端都可以采用压缩 map输出端采用压缩可以减少job中map和reducetask之间数据的传输量reduce端输出阶段压缩:当hive将输出写入到表中输出的内...原创 2021-09-09 17:11:24 · 161 阅读 · 0 评论 -
大白话解释拉链表
1.拉链表的定义:记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条记录,并把当前日期放入生效开始日期。用户ID 姓名 手机号 开始时间 结束时间 1 李四 185****8454 2020-05-12 200-05-12 1 李四 156****5612 2020-05-13 2020-05-16 1 李四 137****1864 2020-05-17 9999-99-99原创 2021-08-28 09:38:46 · 503 阅读 · 0 评论 -
Hive——窗口函数
窗口函数1.什么时候用开窗函数?开窗函数常结合聚合函数使用,一般来讲聚合后的行数要少于聚合前的行数,但是有时我们既想显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.例如:±------±------------±------±--------------±-+ | name | orderdate | cost | sum_window_0 |±------±------------±------±--------------±-+ | jack | 2017-0原创 2021-01-25 22:41:21 · 97 阅读 · 0 评论 -
hive常用语句(二)
一、排序1.全局排序(Order by)只有一个Reducer ASC:升序 DESC:降序查询员工信息按工资降序排列hive (default)> select * from emp order by sal desc;2.每个MapReduce内部排序(Sort By)Sort By:针对于大规模的数据集order by的效率非常低,并不需要全局排序,此时可以使用sort by设置reduce个数set mapreduce.job.reduces=3;查看设原创 2021-01-25 20:33:34 · 153 阅读 · 0 评论 -
hive常用语句(一)
启动beeline客户端beeline -u jdbc:hive2://hadoop102:10000 -n atlxt退出hive窗口hive(default)>exit;先隐性提交数据 再退出hive(default)>quit;不提交数据 直接退出列分隔符row format delimited fields terminated by ‘,’MAP STRUCT 和 ARRAY 的分隔符(数据分割符号)collection items terminated原创 2021-01-21 23:20:46 · 346 阅读 · 0 评论