hiveQL 优化

最新推荐文章于 2023-02-07 08:30:00 发布

baiyunl

最新推荐文章于 2023-02-07 08:30:00 发布

阅读量244

点赞数

分类专栏： hive 文章标签： Mapreduce hive

本文链接：https://blog.csdn.net/baiyunl/article/details/83811557

版权

hive 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下： mapred.child.java.opts -Xmx 1024m

2.hive默认建表时的路径也可以在hive-site.xml里配置，如下: hive.metastore.warehouse.dir value >/user/hive/warehouse description >location of default database for the warehouse

3.执行join操作的时候，尽量把小表放前面，大表放前面可能会因为内存溢出而出错

4.对分区表进行操作需要对分区进行过滤（如：ds=$yday）。特别是在JOIN操作的时候，分区过滤（如：ds=$yday）需要放到 ON语句或子查询里面。不能放到ON后面的WHERE里，这样会扫描所有表，最后才判断分区。也就是说程序会先执行JOIN操作，才会执行最后的WHERE操作。

5.在JOIN操作中，后面被连续JOIN且同一字段，只会执行一个mapreduce操作。 SELECT * FROM a LEFT OUTER JOIN b ON a.t=b.t LEFT OUTER JOIN c ON a.t=c.t; 推荐的 SELECT * FROM a LEFT OUTER JOIN b ON a.t=b.t LEFT OUTER JOIN c ON b.t=c.t; 效率低下的

6.当一个大表和一个很小的表进行JOIN操作的时候，使用MAPJOIN操作，这样会把小表读入内存进行JOIN，只需要一个map操作JOIN就完成了 select /*+ mapjoin(a)*/ a.c1,b.c2,b.c3 from a join b on a.c4=b.c4;

7.通过设置hive.merge.mapfiles可以关闭hive对于扫描表的优化，但有时候会提高效率。默认值为true。可以视情况设置：只含有SELECT的语句或 MAPJOIN 推荐使用

8.ALTER TABLE a SET SERDEPROPERTIES('serialization.null.format' = ''); 可以使结果表不出现\N字符串，而用空串代替

baiyunl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hiveQL 优化

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下： mapred.child.java.opts -Xmx 1024m 2.hive默认建表时的路径也可以在hive-site.xml里配置，如下: hive.metastore.warehouse.dir value &gt;/user/hive/warehouse descriptio...
复制链接

扫一扫

专栏目录