mbb小马-CSDN博客

原创 Hive调优

但是order by会导致出现一个reducer的情况，所以可以先使用 distribute by ... sort By ...limit 先进行分区内部取前N名最后套一层再用 order by，那么这个reducer 处理的数据量就小了很多。7.做hive 的join时，在业务允许的情况下，一定要提前去重，否则会出现数据膨胀的情况（笛卡尔积）2.slowStart参数，这个参数就是设置map任务完成多少后，才启动reduce的参数。2.有分区表的时候，一定是先过滤分区数据，本质就是分区裁剪。

2024-08-13 16:10:40 165

原创 Hive 中 with as 用法

with as：也叫子查询，先通过with语法将数据查询到内存，后面其它查询可以直接使用，不仅提高了查询性能，同时也提高了代码的可读性。1.前面每个as里都相当于一个子查询，可以看作一个独立模块，最后select则是整体查询，也是最终展示的查询结果。3.多个子句之间使用逗号分隔即可，最后一个子句与后面的查询语句不需要在添加逗号。2.with 子句必须在select之前定义。

2024-08-13 15:46:04 124

原创 HDFS数据同步到Hive

1.首先使用关键字external创建外部表2.location位置指向hdfs存储数据的路径3.只要创建的是外部表，location指向hdfs存储路径，数据就可以直接映射到hive表中4.可以在创建见一些临时表（内部表），通过查询写入数据5.后续操作尽可能在临时表操作，初始化数据保持不变。

2024-08-08 10:12:36 231 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人