1. Common/Shuffle/Reduce Join
链接发生在reduce 阶段
大表对大表(大表:数据存储在文件中;小表:数据存储在内存中)
2. Map Join
链接发生在mapTask
小表对大表
小表通过DistributedCache类加载到内存中
现在,设置:set hive.auto.convert.join=true;达到优化的目的
3.SMB Join(Sort-Merge-Bucket)
把相同的数据放在同一个分区
create table order(cid int, price float,quantity int) clustered by(cid) sorted by(cid) into 32 Buckets;