最近在做一个大数据项目,其中涉及到数据需要从一个库抽到另一个库,抽取的过程中需要做一些数据清洗和转换,然后就遇到了需要根据手机号判断运营商的需求,编写sql尝试了两三个小时,才解决掉这个问题,在此写个博客作为记录,供自己和有同样需求的人作为参考。
SELECT
t.NAME,
t.NO,
t.cellphone_num,
CASE
WHEN TRIM(t.cellphone_num) REGEXP '^13[5-9]|^134[0-8]|^15[012789]|^18[23478]|^178|^14[78]|^170[356]|^198|^1440' and length(TRIM(t.cellphone_num)) = 11 THEN '中国移动'
WHEN TRIM(t.cellphone_num) REGEXP '^13[0-2]|^145|^15[56]|^176|^1704|^1707|^1708|^1709|^171|^18[56]' and length(TRIM(t.cellphone_num)) = 11 THEN '中国联通'
WHEN TRIM(t.cellphone_num) REGEXP '^133|^153|^1700|^1701|^1702|^177|^173|^18[019]' and length(TRIM(t.cellphone_num)) = 11 THEN '中国电信'
ELSE '未知运营商'
END AS provider
FROM
up_user t
where t.cellphone_num REGEXP '^1([358][0-9]|4[579]|66|7[0135678]|9[89])[0-9]{8}$'
以上为自己的测试sql
需要说明的是,判断运营商的正则表达式只是判断手机号的前三位或前四位,需要结合后边的length = 11一块使用。感觉使用比较麻烦,但是毕竟还是实现功能了,所以也就凑合用了。
如果哪位大神能够改造一下这些正则,不胜感激