目录
Hive join
Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEFT SEMI JOIN和CROSS JOIN,但这两种JOIN类型也可以用前面的代替。
Hive支持等值连接(a.id=b.id),不支持非等值(a.id>b.id)的连接,因为非等值连接非常难转化到map/reduce任务。另外,Hive支持多2个以上表之间的join。
写join查询时,需要注意几个关键点:
- join时,每次map/reduce任务的逻辑:
reducer会缓存join序列中除了最后一个表的所有表的记录,再通过最后一个表将结果序列化到文件系统。这一实现有助于在reduce端减少内存的使用量。实践中,应该把最大的那个表写在最后(否则会因为缓存浪费大量内存)。 - LEFT,RIGHT和FULL OUTER关键字用于处理join中空记录的情况
SELECT a.val,b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)
对应所有a表中的记录都有一条记录输出。输出的结果应该是a.val,b.val,当a.key=b.key时,而当b.key中找不到等值的a.key记录时也会输出:
a.val, NULL
所以a表中的所有记录都被保留了:
“a RIGHT OUTER JOIN b”会保留所有b表的记录。 - join发生在WHERE子句之前
如果你想限制join的输出,应该在WHERE子句中写过滤条件——或是在join子句中写。这里面一个容易混淆的问题是表分区的情况:
SELECT a.val,b.val FROM a
LEFT OUTER JOIN b ON(a.key=b.key)
WHERE a.ds=‘2009-07-07’ AND b.ds=‘2009-07-07’
这会joina表到b表(OUTER JOIN),列出a.val和b.val的记录。
join实操和数据准备
inner join:内连接,只有a.id=b.id才会显示出来,不相等不会显示出来
先创建A表、B表
通过命令vi a.txt
准备数据a.txt
编辑后保存a.txt
通过命令vi b.txt
准备数据b.txt
编辑后保存b.txt
导入数据
确认数据是否导入成功
select * from a;
确认数据是否导入成功
select * from b;
join实验
inner join:内连接
inner join:内连接,只有a.id=b.id才会显示出来,不相等不会显示出来
开发环境可以开启本地模式,线上环境一定不要开启本地模式。
set hive.exec.mode.local.auto=true;
left join:左关联(左外关联),以左表为准。
左表所有字段显示出来,右表做关联。如果关联上,相等则显示出来;如果关联不上,显示为null。
right join:右关联(右外关联),以右表为准。
把右表所有字段显示出来,左表做关联。如果关联上,相等则显示出来;如果关联不上,显示为null。
full outer join:全关联(全外关联)
hive中的特别join:semi join
corss join(##慎用)
返回两个表的笛卡尔积结果,不需要指定关联键。
select a.*,b.* from a cross join b;
执行结果:
左表100条记录,右表100条记录,100*100=10000条记录。