正则表达式及在Oracle中的应用

1、正则基础

本节是通用知识,适合绝大部分语言,用来归纳、帮助个人理解。

四种字符

按性质区分,正则构成要素可分为 4类:字符、重复次数、位置、逻辑

1字符:

代表要匹配的内容,包含普通字符、限定类型字符、转义字符(如回车)。

  1. 普通字符:如明确的数字、字母、标点符号等。如abc,1a2bc3$等。普通字符用处不大,用普通的字符函数处理即可。
  2. 集合字符:[…] 反括号内的任意字符。如只数字、只字母、字母数字等。如[0-9]表任意数字,如[a-zA-Z]表任意字母。比普通的字符函数匹配能力更广。
  3. 转义字符:如回车换行、制表符等。oracle不支持\n \t等常规写法,需要借助chr()函数,如chr(10)表回车。
  4. 通配符:
    . 表除换行外的任意字符。
    \d 任意数字
    \D 任一非数字
    \w 任一单词字符,如abcx1
    \W 任一非单词字符,如@
    \s 任一空字符,如空格、回车、制表等
    \S 任一非空字符。

2重复次数:

0次或多次:* (协助记忆:)
1次或多次:+ (协助记忆:+表示整,肯定有数)
0次或1次:? (协助记忆:问号上半部是半圆,表0;下半部分是点,表1)
指定次数:{1,5} 出现次数1到5之间,{1,}至少出现1次。
重复出现的次数:\n 前边样式,注意是重复出现。

3位置:

【^】开头;
【$】结尾;

4逻辑:

  1. 子表达式:(),以整体出现,必须满需()的内完整要求。对照[],是其中的任一个字符即可。

  2. 或:|

  3. 非:,用字字符集合中,如[1-5],取不是1到5数字的其他字符。

    ps:3中括号符号的用途:[字符集合]{重复次数}(子表达式)

2、Oracle中正则的使用

对照常用的4个字符函数:like、instr、substr、replace。

regexp_like(expression, regexp)

返回值为一个布尔值。如果第一个参数匹配第二个参数所代表的正则表达式,那么将返回真,否则将返回假。

举例: select * from people where regexp_like(name, ‘^J.*$’);

相当于: select * from people where name like ‘J%’;

regexp_instr(expression, regexp, startindex, times)

返回找到的匹配字符串的位置.

参数startindex表示开始进行匹配比较的位置;参数times表示第几次匹配作为最终匹配结果。

举例: select regexp_instr('12.158', '\.') position from dual; 

regexp_instr('12.158', '\.')用于获取第一个小数点的位置。

regexp_substr(expression, regexp)

返回第一个字符串参数中,与第二个正则表达式参数相匹配的子字符串。

   举例: create table html(id integer, html varchar2(2000)); 

insert into html 

values (1, '<a href="http://mail.google.com/2009/1009.html">mail link</a>'); 

表html中存储了HTML标签及内容。现欲从标签中获得链接的url,那么可以利用regexp_substr()函数。

select id, regexp_substr(html, 'http[a-zA-Z0-9\.:/]*') url from html; 

regexp_replace(expression, regexp, replacement)

将expression中的按regexp匹配到的部分用replacement代替.

在参数replacement中,可以含有后向引用,以便将正则表达式中的字符组重新捕获。例如,某些国家和地区的日期格式可能为“MM/DD/YYYY”,那么可以利用regexp_replace()函数来转换日期格式。

select regexp_replace('09/29/2008', '^([0-9]{2})/([0-9]{2})/([0-9]{4})$', '\3-\1-\2')  replace 
from dual;    

3、举例

select regexp_substr('a' || chr(9) || 'ba-ba0ba*babab', 'a.{3}b')
  from dual;
a*bab  

select regexp_substr('a' || chr(9) || 'ba-ba0ba*babab', 'a.{2,}b')
  from dual;
a	ba-ba0ba*babab

select regexp_substr('a' || chr(9) || 'ba-ba0ba*babab', '[^a-z]', 1, 2)
  from dual;	
-

select regexp_substr('a' || chr(9) || 'ba-ba0baa*babab', '([a-z])\1')
  from dual;
aa  

select regexp_substr('a' || chr(9) || 'ba-ba0baa*babab', '([a-z]{2})\1')
  from dual;
baba

4、常用正则表达式

序号场景写法输入输出说明
1截取<>之间的内容regexp_substr(t.log_text, ‘[<]{1}[1234567890.]*[>]{1}’)223767 17:07:29 mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f447acb1000 <0.000015><0.000015>1.[<]{1}:1个<尖括号,<不是预留符号;2.[123.]*:任意长度的数字和点
2截取<>之间的内容regexp_substr(t.log_text, ‘<[1234567890.]*>’)223767 17:07:29 mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f447acb1000 <0.000015><0.000015>上个写法的简化,1个尖括号,不用再专指定长度,[<]{1} ⇒ <
3截取纯数字regexp_substr(t.log_text, ‘[1234567890]+’,1,2)223767 17:07:29 mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f447acb1000 <0.000015>171、找第2次出现的数字串; 2、寻找的逻辑:从左到右找符合规则的字符,直到出现不符合规则的;然后再开始,算第2次。

附录

参考:https://www.cnblogs.com/linbo3168/p/6016643.html

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值