正则表达式及在Oracle中的应用

英雄史诗

已于 2023-10-31 09:35:56 修改

阅读量396

点赞数 1

分类专栏： Oracle 开发文章标签：正则 Oracle regexp_like

于 2020-07-23 16:28:53 首次发布

本文链接：https://blog.csdn.net/heroicpoem/article/details/107540496

版权

开发同时被 2 个专栏收录

48 篇文章 1 订阅

订阅专栏

Oracle

29 篇文章 3 订阅

订阅专栏

== 目录 ==

1、正则基础
- 四种字符
2、Oracle中正则的使用
3、举例
4、常用正则表达式
附录

1、正则基础

本节是通用知识，适合绝大部分语言，用来归纳、帮助个人理解。

四种字符

按性质区分，正则构成要素可分为 4类：字符、重复次数、位置、逻辑

1字符：

代表要匹配的内容，包含普通字符、限定类型字符、转义字符(如回车)。

普通字符：如明确的数字、字母、标点符号等。如abc,1a2bc3$等。普通字符用处不大，用普通的字符函数处理即可。
集合字符：[…] 反括号内的任意字符。如只数字、只字母、字母数字等。如[0-9]表任意数字，如[a-zA-Z]表任意字母。比普通的字符函数匹配能力更广。
转义字符：如回车换行、制表符等。oracle不支持\n \t等常规写法，需要借助chr()函数，如chr(10)表回车。
通配符:
. 表除换行外的任意字符。
\d 任意数字
\D 任一非数字
\w 任一单词字符，如abcx1
\W 任一非单词字符，如@
\s 任一空字符,如空格、回车、制表等
\S 任一非空字符。

2重复次数：

0次或多次：* (协助记忆：)
1次或多次：+ (协助记忆：+表示整，肯定有数)
0次或1次：? (协助记忆：问号上半部是半圆，表0；下半部分是点，表1)
指定次数：{1,5} 出现次数1到5之间,{1,}至少出现1次。
重复出现的次数：\n 前边样式，注意是重复出现。

3位置：

【^】开头；
【$】结尾；

4逻辑：

子表达式：()，以整体出现，必须满需()的内完整要求。对照[]，是其中的任一个字符即可。
或：|
非：^{，用字字符集合中，如[}1-5]，取不是1到5数字的其他字符。

ps:3中括号符号的用途：[字符集合]{重复次数}(子表达式)

2、Oracle中正则的使用

对照常用的4个字符函数：like、instr、substr、replace。

regexp_like(expression, regexp)

返回值为一个布尔值。如果第一个参数匹配第二个参数所代表的正则表达式，那么将返回真，否则将返回假。

举例: select * from people where regexp_like(name, ‘^J.*$’);

相当于: select * from people where name like ‘J%’;

regexp_instr(expression, regexp, startindex, times)

返回找到的匹配字符串的位置.

参数startindex表示开始进行匹配比较的位置；参数times表示第几次匹配作为最终匹配结果。

举例: select regexp_instr('12.158', '\.') position from dual; 

regexp_instr('12.158', '\.')用于获取第一个小数点的位置。

regexp_substr(expression, regexp)

返回第一个字符串参数中，与第二个正则表达式参数相匹配的子字符串。

   举例: create table html(id integer, html varchar2(2000)); 

insert into html 

values (1, '<a href="http://mail.google.com/2009/1009.html">mail link</a>');

表html中存储了HTML标签及内容。现欲从标签中获得链接的url，那么可以利用regexp_substr()函数。

select id, regexp_substr(html, 'http[a-zA-Z0-9\.:/]*') url from html;

regexp_replace(expression, regexp, replacement)

将expression中的按regexp匹配到的部分用replacement代替.

在参数replacement中，可以含有后向引用，以便将正则表达式中的字符组重新捕获。例如，某些国家和地区的日期格式可能为“MM/DD/YYYY”，那么可以利用regexp_replace()函数来转换日期格式。

select regexp_replace('09/29/2008', '^([0-9]{2})/([0-9]{2})/([0-9]{4})$', '\3-\1-\2')  replace 
from dual;

3、举例

select regexp_substr('a' || chr(9) || 'ba-ba0ba*babab', 'a.{3}b')
  from dual;
a*bab  

select regexp_substr('a' || chr(9) || 'ba-ba0ba*babab', 'a.{2,}b')
  from dual;
a	ba-ba0ba*babab

select regexp_substr('a' || chr(9) || 'ba-ba0ba*babab', '[^a-z]', 1, 2)
  from dual;	
-

select regexp_substr('a' || chr(9) || 'ba-ba0baa*babab', '([a-z])\1')
  from dual;
aa  

select regexp_substr('a' || chr(9) || 'ba-ba0baa*babab', '([a-z]{2})\1')
  from dual;
baba

4、常用正则表达式

序号	场景	写法	输入	输出	说明
1	截取<>之间的内容	regexp_substr(t.log_text, ‘[<]{1}[1234567890.]*[>]{1}’)	223767 17:07:29 mmap(NULL, 4096, PROT_READ\|PROT_WRITE, MAP_PRIVATE\|MAP_ANONYMOUS, -1, 0) = 0x7f447acb1000 <0.000015>	<0.000015>	1.[<]{1}:1个<尖括号，<不是预留符号；2.[123.]*:任意长度的数字和点
2	截取<>之间的内容	regexp_substr(t.log_text, ‘<[1234567890.]*>’)	223767 17:07:29 mmap(NULL, 4096, PROT_READ\|PROT_WRITE, MAP_PRIVATE\|MAP_ANONYMOUS, -1, 0) = 0x7f447acb1000 <0.000015>	<0.000015>	上个写法的简化，1个尖括号，不用再专指定长度，[<]{1} ⇒ <
3	截取纯数字	regexp_substr(t.log_text, ‘[1234567890]+’,1,2)	223767 17:07:29 mmap(NULL, 4096, PROT_READ\|PROT_WRITE, MAP_PRIVATE\|MAP_ANONYMOUS, -1, 0) = 0x7f447acb1000 <0.000015>	17	1、找第2次出现的数字串； 2、寻找的逻辑：从左到右找符合规则的字符，直到出现不符合规则的；然后再开始，算第2次。

附录

参考：https://www.cnblogs.com/linbo3168/p/6016643.html

英雄史诗

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
正则表达式及在Oracle中的应用

1、正则基础本节是通用知识，适合绝大部分语言，用来归纳、帮助个人理解。四种字符按性质区分，正则构成要素可分为 4类：字符、重复次数、位置、逻辑1字符代表要匹配的内容，包含普通字符、限定类型字符、转义字符(如回车)。普通字符：如明确的数字、字母、标点符号等。如abc,1a2bc3$等。普通字符用处不大，用普通的字符函数处理即可。集合字符：[…] 反括号内的任意字符。如只数字、只字母、字母数字等。如[0-9]表任意数字，如[a-zA-Z]表任意字母。比普通的字符函数匹配能力更广。转义字符：如回
复制链接

扫一扫

专栏目录