oracle sql parallel mapjoin 调优

最近在搞数据库,需要操作上千万的数据,但是发现自己写的sql运行的很慢,然后问了小组的组长(一个技术超级强的和蔼可亲的 哈哈 领导),发现在查询数据的时候加入了Parallel、MAPJION这两个东西,然后我上网查了下这两个词的使用场景和方法,简单总结下。

一、Parallel

1、场景

一般在使用sql是返回记录数大于100万数据时使用,sql效率提升比较明显,但会消耗数据库的资源和性能。Parallel功能需要开启,此功能在Oracle 9i之后的版本可以使用,启用后便启用了Oracle的多线程处理功能。类似于电脑、手机的多核处理器,提高效率。

2、用法

可以加到insert、delete、update、select后使用,一般在select使用较多,操作大批量的数据做删除时,不推荐使用delete,效率很低。
开启parallel功能:alter session enable parallel dml;

3、示例()

 select /*+ parallel(t,5)*/ t.* from user t;
 insert / * +parallel(t,10) * /   into user t;

Parallel后面的数字越大,执行效率越高,占用的资源也会越大。但是,增大到一定值,效果就不明显了,我平常用的最多的及时4、5、6这些,也比较常见。写的太大了的话被dba看到直接给你进程kill掉就不好了。

二、mapjoin

1、场景

  • 两个要关联的表,一个表很大,另一个表记录数很少,小于1000条,需要使用这张表作表连接,在做关联是加入mapjoin,将这张小表直接存入内存中,提高效率。
  • 还可进行不等值的链接操作

2、示例

select  /*+ mapjoin(t)*/ f.a,f.b 
from A t 
join B f  
on ( f.a=t.a and f.no = 123)  

hive在执行过程中,mapjoin会把小表 t 全部读入内存中,在map阶段直接拿 f 表的数据和内存中表数据做匹配,由于在map是进行了join操作,省去了reduce运行的效率也会高很多

select A.a ,A.b from A join B where A.a>B.a

mapjoin还有一个很大的好处是能够进行不等连接的join操作,如果将不等条件写在where中,那么mapreduce过程中会进行笛卡尔积,运行效率特别低,这是由于equality join (不等值join操作有 >、<、like等如:a.x < b.y 或者 a.x like b.y) 需要在reduce端进行不等值判断,map端只能过滤掉where中等值连接时候的条件,如果使用mapjoin操作,在map的过程中就完成了不等值的join操作,效率会高很多

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xhaoDream

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值