hive优化

最新推荐文章于 2024-07-10 15:42:14 发布

sinat_37333675

最新推荐文章于 2024-07-10 15:42:14 发布

阅读量102

点赞数

分类专栏： HIVE 文章标签： hive

本文链接：https://blog.csdn.net/sinat_37333675/article/details/108336256

版权

HIVE 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

小表join大表
利用hive进行join连接操作，相较于MR有两种执行方案，一种为common join，另一种为map join ，map join是相对于common join的一种优化，省去shullfe和reduce的过程，大大的降低的作业运行的时间。
common join:两个map作业读取两张表，归并为emp的格式，然后经由reducer合并。最后能获取到join的连接结果。
map join:首先在本地生成一个local task 读取比较小的表，然后将表写入Hash Table Files ，上传到HDFS的缓存中，然后启动一个map作业，每读取一条数据，就与缓存中的小表进行join操作，直至整个大表读取结束。

set hive.auto.convert.join = true ; hive是否自动根据文件量大小，选择将common join转成map join 。
set hive.mapjoin.smalltable.filesize =25000000 ；大表小表判断的阈值，如果表的大小小于该值25Mb，则会被判定为小表。则会被加载到内存中运行，将commonjoin转化成mapjoin。一般这个值也就最多几百兆的样子。
set hive.auto.convert.join.noconditionaltask = true;默认值：true，当将普通的join转化为普通的mapjoin时，是否将多个mapjoin转化为一个mapjoin，主要针对多个小表join大表的情形。
set hive.auto.convert.join.noconditionaltask.size =10000000;默认值为10MB。将多个mapjoin转化为一个mapjoin时，其小表总和的最大值，所以这个条件比单独启动一个mapjon的参数set hive.mapjoin.smalltable.filesize更加严格。合并mapjoin有啥好处呢？因为每个mapjoin都要执行一次map，需要读写一次数据，所以多个mapjoin就要做多次的数据读写，合并mapjoin后只用读写一次，自然能大大加快。

sinat_37333675

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive优化

小表join大表利用hive进行join连接操作，相较于MR有两种执行方案，一种为common join，另一种为map join ，map join是相对于common join的一种优化，省去shullfe和reduce的过程，大大的降低的作业运行的时间。common join:两个map作业读取两张表，归并为emp的格式，然后经由reducer合并。最后能获取到join的连接结果。map join:首先在本地生成一个local task 读取比较小的表，然后将表写入Hash Table File
复制链接

扫一扫