Hive Join的几种方式

本文介绍了Hive中的几种join操作,包括如何处理导入文件时出现的空行问题,以及左连接、右连接和全连接的概念及其应用。通过实例展示了如何删除NULL行,并详细解释了不同类型的JOIN在数据保留上的差异。
摘要由CSDN通过智能技术生成

下面实验几种hive中常用到的join操作

首先创建两个文件用于导入表中

hadoop@master:~/17$ cat data1
1,a
2,b
3,c
4,d
5,e
8,u
9,r
hadoop@master:~/17$ cat data2
1,aa
2,gg
7,www
19,ee


实验步骤:

1.创建hive表
create table a(id int, name string) row format delimited fields terminated by ',';
create table b(id int, name string) row format delimited fields terminated by ',';

2.导入数据
load data local inpath '/home/hadoop/17/data1' into table a;
load data local inpath '/home/hadoop/17/data2' into table b;


备注:

如果导入的文件有空行的情况,就会出现为NULL的行,判断条件为int用is NULL或者is not NULL判断,string 类型用='NULL'或者!='NULL'来判断

如果想把为NULL的行删除,可以这样

insert overw
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hive 中进行 join 操作时,可以通过以下几种方式进行调优: 1. 使用 Map Join:Map Join 是一种优化技术,它可以将小表加载到内存中,从而避免了大表的全表扫描。在 Hive 中,通过将一个小表的数据放入 Map 中,然后将 Map 发送到所有的 Map Task 中,让每个 Task 都可以使用该 Map 中的数据进行 join,从而大大提高了 join 的效率。 2. 使用 Bucket Join:Bucket Join 是一种优化技术,它可以将两个表都按照指定的字段进行分桶,然后在进行 join 操作时,只需要对同一个桶中的数据进行 join,这样就可以避免全表扫描,大大提高了 join 的效率。 3. 使用 Broadcast Join:Broadcast Join 是一种优化技术,它可以将小表的数据复制到每个节点上,从而避免了大表的全表扫描。在 Hive 中,通过将一个小表的数据复制到每个节点上,然后在每个节点上进行 join 操作,从而大大提高了 join 的效率。 4. 调整 Map 和 Reduce 的数量:在进行 join 操作时,可以根据数据的大小和计算资源的情况,调整 Map 和 Reduce 的数量,从而达到最优的性能。 5. 优化数据表结构:在进行 join 操作时,可以优化数据表的结构,例如将一些经常使用的列进行拆分,以减少数据的传输量,从而提高 join 的效率。 总之,要想实现高效的 Hive join,需要根据具体的数据情况和计算资源情况,选择合适的优化技术和调优参数,从而达到最优的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值