- 博客(3)
- 收藏
- 关注
原创 Hive调优
但是order by会导致出现一个reducer的情况,所以可以先使用 distribute by ... sort By ...limit 先进行分区内部取前N名 最后套一层再用 order by,那么这个reducer 处理的数据量就小了很多。7.做hive 的join时,在业务允许的情况下,一定要提前去重,否则会出现数据膨胀的情况(笛卡尔积)2.slowStart参数,这个参数就是设置map任务完成多少后,才启动reduce的参数。2.有分区表的时候,一定是先过滤分区数据,本质就是分区裁剪。
2024-08-13 16:10:40 165
原创 Hive 中 with as 用法
with as:也叫子查询,先通过with语法将数据查询到内存,后面其它查询可以直接使用,不仅提高了查询性能,同时也提高了代码的可读性。1.前面每个as里都相当于一个子查询,可以看作一个独立模块,最后select则是整体查询,也是最终展示的查询结果。3.多个子句之间使用逗号分隔即可,最后一个子句与后面的查询语句不需要在添加逗号。2.with 子句必须在select之前定义。
2024-08-13 15:46:04 124
原创 HDFS数据同步到Hive
1.首先使用关键字external创建外部表2.location位置指向hdfs存储数据的路径3.只要创建的是外部表,location指向hdfs存储路径,数据就可以直接映射到hive表中4.可以在创建见一些临时表(内部表),通过查询写入数据5.后续操作尽可能在临时表操作,初始化数据保持不变。
2024-08-08 10:12:36 231 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人