最近在搞数据库,需要操作上千万的数据,但是发现自己写的sql运行的很慢,然后问了小组的组长(一个技术超级强的和蔼可亲的 哈哈 领导),发现在查询数据的时候加入了Parallel、MAPJION这两个东西,然后我上网查了下这两个词的使用场景和方法,简单总结下。
一、Parallel
1、场景
一般在使用sql是返回记录数大于100万数据时使用,sql效率提升比较明显,但会消耗数据库的资源和性能。Parallel功能需要开启,此功能在Oracle 9i之后的版本可以使用,启用后便启用了Oracle的多线程处理功能。类似于电脑、手机的多核处理器,提高效率。
2、用法
可以加到insert、delete、update、select后使用,一般在select使用较多,操作大批量的数据做删除时,不推荐使用delete,效率很低。
开启parallel功能:alter session enable parallel dml;
3、示例()
select /*+ parallel(t,5)*/ t.* from user t; insert / * +parallel(t,10) * / into user t;
Parallel后面的数字越大,执行效率越高,占用的资源也会越大。但是,增大到一定值,效果就不明显了,我平常用的最多的及时4、5、6这些,也比较常见。写的太大了的话被dba看到直接给你进程kill掉就不好了。
二、mapjoin
1、场景
- 两个要关联的表,一个表很大,另一个表记录数很少,小于1000条,需要使用这张表作表连接,在做关联是加入mapjoin,将这张小表直接存入内存中,提高效率。
- 还可进行不等值的链接操作
2、示例
select /*+ mapjoin(t)*/ f.a,f.b
from A t
join B f
on ( f.a=t.a and f.no = 123)
hive在执行过程中,mapjoin会把小表 t 全部读入内存中,在map阶段直接拿 f 表的数据和内存中表数据做匹配,由于在map是进行了join操作,省去了reduce运行的效率也会高很多
select A.a ,A.b from A join B where A.a>B.a
mapjoin还有一个很大的好处是能够进行不等连接的join操作,如果将不等条件写在where中,那么mapreduce过程中会进行笛卡尔积,运行效率特别低,这是由于equality join (不等值join操作有 >、<、like等如:a.x < b.y 或者 a.x like b.y) 需要在reduce端进行不等值判断,map端只能过滤掉where中等值连接时候的条件,如果使用mapjoin操作,在map的过程中就完成了不等值的join操作,效率会高很多