今天针对手机号运营商归属进行一个统计,由于数据量较多(500万),用正则进行手机运营商的判断发现速度很慢,就做了一番分析比较,记录如下:
场景: t_mobile 表有500多万条记录,手机号码上有索引,需要统计出三个运营商的数量;
方法:
1:select count(*)
from t_mobile
where REGEXP_LIKE(mobile_no,'^(133|153|180|189)[0-9]{8}|1349[0-9]{7}$');
耗时:37.471秒,结果 176693
执行计划:
2:select count(*)
from t_driver
where substr(mobile_no, 1, 3) in ('133', '153', '180', '189')
or substr(mobile_no, 1, 4) = '1349'
耗时:4.356秒,结果 176693
执行计划:
分析查看两个执行计划,基本差不多,但为什么速度会插很多呢???
经过分析认为可能是一下原因:
1,使用正则多了一步要验证是否是手机号的功能,因此慢
2,正则函数本身执行慢,
我更倾向于前面一种,因此在使用正则的时候要考虑场景,不要为了简单就过度使用,就像这种情况,当已知是手机号的时候就不要为了省事使用正则来解决了。
另外在使用正则的过程曾经遇到
ORA-00600
错误 这个错误,最终也没找到原因,将正则改成了其他的方式代替,所以,在非必须的情况下尽量少用正则