== 目录 ==
1、正则基础
本节是通用知识,适合绝大部分语言,用来归纳、帮助个人理解。
四种字符
按性质区分,正则构成要素可分为 4类:字符、重复次数、位置、逻辑
1字符:
代表要匹配的内容,包含普通字符、限定类型字符、转义字符(如回车)。
- 普通字符:如明确的数字、字母、标点符号等。如abc,1a2bc3$等。普通字符用处不大,用普通的字符函数处理即可。
- 集合字符:[…] 反括号内的任意字符。如只数字、只字母、字母数字等。如[0-9]表任意数字,如[a-zA-Z]表任意字母。比普通的字符函数匹配能力更广。
- 转义字符:如回车换行、制表符等。oracle不支持\n \t等常规写法,需要借助chr()函数,如chr(10)表回车。
- 通配符:
. 表除换行外的任意字符。
\d 任意数字
\D 任一非数字
\w 任一单词字符,如abcx1
\W 任一非单词字符,如@
\s 任一空字符,如空格、回车、制表等
\S 任一非空字符。
2重复次数:
0次或多次:* (协助记忆:)
1次或多次:+ (协助记忆:+表示整,肯定有数)
0次或1次:? (协助记忆:问号上半部是半圆,表0;下半部分是点,表1)
指定次数:{1,5} 出现次数1到5之间,{1,}至少出现1次。
重复出现的次数:\n 前边样式,注意是重复出现。
3位置:
【^】开头;
【$】结尾;
4逻辑:
-
子表达式:(),以整体出现,必须满需()的内完整要求。对照[],是其中的任一个字符即可。
-
或:|
-
非:,用字字符集合中,如[1-5],取不是1到5数字的其他字符。
ps:3中括号符号的用途:[字符集合]{重复次数}(子表达式)
2、Oracle中正则的使用
对照常用的4个字符函数:like、instr、substr、replace。
regexp_like(expression, regexp)
返回值为一个布尔值。如果第一个参数匹配第二个参数所代表的正则表达式,那么将返回真,否则将返回假。
举例: select * from people where regexp_like(name, ‘^J.*$’);
相当于: select * from people where name like ‘J%’;
regexp_instr(expression, regexp, startindex, times)
返回找到的匹配字符串的位置.
参数startindex表示开始进行匹配比较的位置;参数times表示第几次匹配作为最终匹配结果。
举例: select regexp_instr('12.158', '\.') position from dual;
regexp_instr('12.158', '\.')用于获取第一个小数点的位置。
regexp_substr(expression, regexp)
返回第一个字符串参数中,与第二个正则表达式参数相匹配的子字符串。
举例: create table html(id integer, html varchar2(2000));
insert into html
values (1, '<a href="http://mail.google.com/2009/1009.html">mail link</a>');
表html中存储了HTML标签及内容。现欲从标签中获得链接的url,那么可以利用regexp_substr()函数。
select id, regexp_substr(html, 'http[a-zA-Z0-9\.:/]*') url from html;
regexp_replace(expression, regexp, replacement)
将expression中的按regexp匹配到的部分用replacement代替.
在参数replacement中,可以含有后向引用,以便将正则表达式中的字符组重新捕获。例如,某些国家和地区的日期格式可能为“MM/DD/YYYY”,那么可以利用regexp_replace()函数来转换日期格式。
select regexp_replace('09/29/2008', '^([0-9]{2})/([0-9]{2})/([0-9]{4})$', '\3-\1-\2') replace
from dual;
3、举例
select regexp_substr('a' || chr(9) || 'ba-ba0ba*babab', 'a.{3}b')
from dual;
a*bab
select regexp_substr('a' || chr(9) || 'ba-ba0ba*babab', 'a.{2,}b')
from dual;
a ba-ba0ba*babab
select regexp_substr('a' || chr(9) || 'ba-ba0ba*babab', '[^a-z]', 1, 2)
from dual;
-
select regexp_substr('a' || chr(9) || 'ba-ba0baa*babab', '([a-z])\1')
from dual;
aa
select regexp_substr('a' || chr(9) || 'ba-ba0baa*babab', '([a-z]{2})\1')
from dual;
baba
4、常用正则表达式
序号 | 场景 | 写法 | 输入 | 输出 | 说明 |
---|---|---|---|---|---|
1 | 截取<>之间的内容 | regexp_substr(t.log_text, ‘[<]{1}[1234567890.]*[>]{1}’) | 223767 17:07:29 mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f447acb1000 <0.000015> | <0.000015> | 1.[<]{1}:1个<尖括号,<不是预留符号;2.[123.]*:任意长度的数字和点 |
2 | 截取<>之间的内容 | regexp_substr(t.log_text, ‘<[1234567890.]*>’) | 223767 17:07:29 mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f447acb1000 <0.000015> | <0.000015> | 上个写法的简化,1个尖括号,不用再专指定长度,[<]{1} ⇒ < |
3 | 截取纯数字 | regexp_substr(t.log_text, ‘[1234567890]+’,1,2) | 223767 17:07:29 mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f447acb1000 <0.000015> | 17 | 1、找第2次出现的数字串; 2、寻找的逻辑:从左到右找符合规则的字符,直到出现不符合规则的;然后再开始,算第2次。 |
附录
参考:https://www.cnblogs.com/linbo3168/p/6016643.html