自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Hive调优

但是order by会导致出现一个reducer的情况,所以可以先使用 distribute by ... sort By ...limit 先进行分区内部取前N名 最后套一层再用 order by,那么这个reducer 处理的数据量就小了很多。7.做hive 的join时,在业务允许的情况下,一定要提前去重,否则会出现数据膨胀的情况(笛卡尔积)2.slowStart参数,这个参数就是设置map任务完成多少后,才启动reduce的参数。2.有分区表的时候,一定是先过滤分区数据,本质就是分区裁剪。

2024-08-13 16:10:40 165

原创 Hive 中 with as 用法

with as:也叫子查询,先通过with语法将数据查询到内存,后面其它查询可以直接使用,不仅提高了查询性能,同时也提高了代码的可读性。1.前面每个as里都相当于一个子查询,可以看作一个独立模块,最后select则是整体查询,也是最终展示的查询结果。3.多个子句之间使用逗号分隔即可,最后一个子句与后面的查询语句不需要在添加逗号。2.with 子句必须在select之前定义。

2024-08-13 15:46:04 124

原创 HDFS数据同步到Hive

1.首先使用关键字external创建外部表2.location位置指向hdfs存储数据的路径3.只要创建的是外部表,location指向hdfs存储路径,数据就可以直接映射到hive表中4.可以在创建见一些临时表(内部表),通过查询写入数据5.后续操作尽可能在临时表操作,初始化数据保持不变。

2024-08-08 10:12:36 231 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除