小表join大表
利用hive进行join连接操作,相较于MR有两种执行方案,一种为common join,另一种为map join ,map join是相对于common join的一种优化,省去shullfe和reduce的过程,大大的降低的作业运行的时间。
common join:两个map作业读取两张表,归并为emp的格式,然后经由reducer合并。最后能获取到join的连接结果。
map join:首先在本地生成一个local task 读取比较小的表,然后将表写入Hash Table Files ,上传到HDFS的缓存中,然后启动一个map作业,每读取一条数据,就与缓存中的小表进行join操作,直至整个大表读取结束。
- set hive.auto.convert.join = true ; hive是否自动根据文件量大小,选择将common join转成map join 。
- set hive.mapjoin.smalltable.filesize =25000000 ;大表小表判断的阈值,如果表的大小小于该值25Mb,则会被判定为小表。则会被加载到内存中运行,将commonjoin转化成mapjoin。一般这个值也就最多几百兆的样子。
- set hive.auto.convert.join.noconditionaltask = true;默认值:true,当将普通的join转化为普通的mapjoin时,是否将多个mapjoin转化为一个mapjoin,主要针对多个小表join大表的情形。
- set hive.auto.convert.join.noconditionaltask.size =10000000;默认值为10MB。将多个mapjoin转化为一个mapjoin时,其小表总和的最大值,所以这个条件比单独启动一个mapjon的参数set hive.mapjoin.smalltable.filesize更加严格。 合并mapjoin有啥好处呢?因为每个mapjoin都要执行一次map,需要读写一次数据,所以多个mapjoin就要做多次的数据读写,合并mapjoin后只用读写一次,自然能大大加快。