Java学习之正则表达式

最新推荐文章于 2024-07-23 17:33:01 发布

johnny233

最新推荐文章于 2024-07-23 17:33:01 发布

阅读量276

点赞数 1

分类专栏：理论文章标签：正则表达式

本文链接：https://blog.csdn.net/lonelymanontheway/article/details/86580230

版权

理论专栏收录该内容

15 篇文章 3 订阅

订阅专栏

正则表达式（Regular expressions）本质上是一个微小的且高度专业化的编程语言，它被嵌入到高级语言中供程序员使用。正则表达式通过指定一些规则来描述那些你希望匹配的字符串集合，比如Email地址，IP地址。正则表达式的强大之处在于一些特殊符号的应用，特殊符号定义了字符集合、子组匹配、模式重复次数。

正则可看做一门DSL语言，用于解决很多场景下的字符串匹配、筛选问题。

基本概念

可视化网站：https://www.debuggex.com/

不局限于某一种语言，但是在每种语言中有细微的差别。本文只讲Java。

模式修正符

模式修正符，实际上就是特殊的字母，可以一次使用一个，也可以连续使用多个。模式修正符是对整个正则表达式调优使用，是对正则表达式功能的扩展。正则表达式的公式：'/原子和元字符/模式修正符'，其中正斜线为边界符。

模式修正符	说明
i	表示在和模式进行匹配进不区分大小写
m	将模式视为多行，使用^和$表示任何一行都可以以正则表达式开始或结束
s	如果没有使用这个模式修正符号，元字符中的"."默认不能表示换行符号，将字符串视为单行
x	表示模式中的空白忽略不计
e	正则表达式必须使用在preg_replace替换字符串的函数中时才可以使用
A	以模式字符串开头，相当于元字符^
Z	以模式字符串结尾，相当于元字符$
U	正则表达式默认是贪婪匹配模式，使用该模式修正符可以取消贪婪模式

Java API

java.util.regex 包下，主要包括以下三个类：Pattern、Matcher、PatternSyntaxException。
Pattern类
Pattern对象是一个正则表达式的编译表示，没有公共构造方法。要创建一个Pattern对象，你必须首先调用其公共静态编译方法，它返回一个Pattern对象。该方法接受一个正则表达式作为它的第一个参数。
Matcher类
Matcher对象是对输入字符串进行解释和匹配操作的引擎，也没有公共构造方法。调用Pattern对象的matcher方法来获得一个Matcher对象。
PatternSyntaxException
非强制异常类，它表示一个正则表达式模式中的语法错误。

StackOverflowError

2、问题分析
正则表达式引擎分成两类，一类称为DFA（确定性有穷自动机），另一类称为NFA（非确定性有穷自动机）。两类引擎要顺利工作，都必须有一个正则式和一个文本串。DFA捏着文本串去比较正则式，看到一个子正则式，就把可能的匹配串全标注出来，然后再看正则式的下一个部分，根据新的匹配结果更新标注。NFA是捏着正则式去比文本，吃掉一个字符，就把它跟正则式比较，匹配就记下来，然后接着往下干。一旦不匹配，就把刚吃的这个字符吐出来，一个个的吐，直到回到上一次匹配的地方。
DFA与NFA机制上的不同带来5个影响：

DFA 对于文本串里的每一个字符只需扫描一次，比较快，但特性较少；NFA要翻来覆去吃字符、吐字符，速度慢，但是特性丰富，所以反而应用广泛，当今主要的正则表达式引擎，如Perl、Ruby、Python的re模块、Java和.NET的regex库，都是NFA的。
只有NFA才支持lazy和backreference等特性；
NFA急于邀功请赏，所以最左子正则式优先匹配成功，因此偶尔会错过最佳匹配结果；DFA则是“最长的左子正则式优先匹配成功”。
NFA缺省采用greedy量词；
NFA可能会陷入递归调用的陷阱而表现得性能极差。

在使用正则表达式的时候，底层是通过递归方式调用执行的，每一层的递归都会在栈线程的大小中占一定内存，如果递归的层次很多，就会报出stackOverFlowError异常。所以在使用正则的时候其实是有利有弊的。

Java程序中，每个线程都有自己的Stack Space。这个Stack Space不是来自Heap的分配。所以Stack Space的大小不会受到-Xmx和-Xms的影响，这2个JVM参数仅仅是影响Heap的大小。Stack Space用来做方法的递归调用时压入Stack Frame。所以当递归调用太深的时候，就有可能耗尽Stack Space，爆出StackOverflow的错误。Stack Space的大小随着OS，JVM以及环境变量的大小而发生变化。一般说来默认的大小是512K。在64位的系统中，这个Stack Space值会更大。一般说来，Stack Space为128K是够用的。这时你说需要做的就是观察。如果你的程序没有爆出StackOverflow的错误，可以使用-Xss来调整Stack Space的大小为128K。（eg：-Xss128K)

文章开头的问题可以简单理解为方法的嵌套调用层次太深，上层的方法栈一直得不到释放，导致栈空间不足。

下面我们要做的就是了解一些正则性能的优化点，规避这种深层次的递归调用。

3、Java 正则的一些优化点
3.1 Pattern.compile() 预编译表达式
如果在程序中多次使用同一个正则表达式，一定要用Pattern.compile()编译，代替直接使用Pattern.matches()。如果一次次对同一个正则表达式使用Pattern.matches()，例如在循环中，没有编译的正则表达式消耗比较大。因为matches()方法每次都会预编译使用的表达式。另外，记住你可以通过调用reset()方法对不同的输入字符串重复使用Matcher对象。

3.2 留意选择（Beware of alternation）
类似“(X|Y|Z)”的正则表达式有降低速度的坏名声，所以要多留心。首先，考虑选择的顺序，那么要将比较常用的选择项放在前面，因此它们可以较快被匹配。另外，尝试提取共用模式；例如将“(abcd|abef)”替换为“ab(cd|ef)”。后者匹配速度较快，因为NFA会尝试匹配ab，如果没有找到就不再尝试任何选择项。（在当前情况下，只有两个选择项。如果有很多选择项，速度将会有显著的提升。）选择的确会降低程序的速度。在我的测试中，表达式“.(abcd|efgh|ijkl).”要比调用String.indexOf()三次——每次针对表达式中的一个选项——慢三倍。

3.3 减少分组与嵌套
如果你实际并不需要获取一个分组内的文本，那么就使用非捕获分组。例如使用“(?:X)”代替“(X)”。
总结下来就是：减少分支选择、减少捕获嵌套、减少贪婪匹配
4、解决方案
4.1 临时工方案
try…catch…/增加-Xss，治标不治本，不推荐。
4.2 优化正则才是王道
4.2.1 语法层面优化
根据 3.2 提到的，这样优化下：final String TEST_REGEX = “([=+\s\p{P}A-Za-z0-9\u4E00-\u9FA5])+”;
经测试，JVM 参数不变的情况下，for 循环 100w 次直到 OOM 都不会再发生文章开头的栈溢出的问题。
4.2.2 业务逻辑层面优化
由于我不清楚作者的业务场景，不好做业务优化，总的原则是当你的正则太复杂时，可以考虑逻辑拆分，或者部分不走正则，如果把正则当做万能工具可能会得不偿失。
总结：在字符串查找与匹配领域，正则可以说几乎是“万能”的，但是许多场景下，它的代价不容小觑，如何写出高效率、可维护的正则或者怎么能避开正则都是值得咱们思考的问题。

NFA引擎正则性能优化Tips

优先选择最左端的匹配结果
标准量词优先匹配
比如’.[0-9][0-9]‘ 来匹配字符串”abcd12efghijklmnopqrstuvw”，这时候的匹配方式是‘.’先匹配了整行，但是不能满足之后的两个数字的匹配，所以‘.*’就退还一个字符‘w’，还是无法匹配，继续退还一个‘v’，循环退还字符到‘2’发现匹配了一个，但是还是无法匹配两个数字，所以继续退还‘1’
谨慎使用捕获性括号()，选择使用非捕获性括号(?:expression)
捕获性括号需要消耗一部分内存
使用字符组代替分支（替换）条件
例如用[a-d] 代替 a|b|c|d避免不必要的回溯
不要滥用字符组（单个字符时不要用字符组）
\.代替[.]
使用锚点^ $ \b加速定位
从两次中提取必须元素
a{2,4}写成aa{0,2}
提取多选结构开头的相同字符
the|this 改成th(?:e|is)
选择字符串中最常出现的字符串放到分支最前面
能懒则懒，不要贪婪
在 * ＋｛m，n｝后面加上问好？就会变成非贪婪模式
总结：引用CFC4N大牛的一句话滥用. 点号 * 星号 +加号 ()括号是不环保，不负责任的做法！
简单字符串处理应避免使用正则表达式

在线工具

http://tool.chinaz.com/regex

实例

校验数字

数字：^[0-9]*$
n位的数字：^\d{n}$
至少n位的数字：^\d{n,}$
m-n位的数字：^\d{m,n}$
零和非零开头的数字：^(0|[1-9][0-9]*)$
非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]{1,2})?$
带1-2位小数的正数或负数：^(-)?\d+(.\d{1,2})?$
正数、负数、和小数：^(-|+)?\d+(.\d+)?$
有两位小数的正实数：^[0-9]+(.[0-9]{2})?$
有1~3位小数的正实数：^[0-9]+(.[0-9]{1,3})?$
非零的正整数：^[1-9]\d$ 或 ^([1-9][0-9]){1,3}$ 或 ^+?[1-9][0-9]*$
非零的负整数：^-[1-9][]0-9"$ 或 ^-[1-9]\d$
非负整数：^\d+$ 或 ^[1-9]\d*|0$
非正整数：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
非负浮点数：^\d+(.\d+)?$ 或 ^[1-9]\d.\d|0.\d[1-9]\d|0?.0+|0$
非正浮点数：^((-\d+(.\d+)?)|(0+(.0+)?))$ 或 ^(-([1-9]\d.\d|0.\d[1-9]\d))|0?.0+|0$
正浮点数：^[1-9]\d.\d|0.\d[1-9]\d$或^(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9]))$
负浮点数：^-([1-9]\d.\d|0.\d[1-9]\d)$ 或 ^(-(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9])))$
浮点数：^(-?\d+)(.\d+)?$或^-?([1-9]\d.\d|0.\d[1-9]\d|0?.0+|0)$

校验字符

汉字：^[\u4e00-\u9fa5]{0,}$
英文和数字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
长度为3-20的所有字符：^.{3,20}$
由26个英文字母组成的字符串：^[A-Za-z]+$
由数字、26个英文字母或者下划线组成的字符串：^\w+$ 或 ^\w{3,20}$
中文、英文、数字包括下划线：^[\u4E00-\u9FA5A-Za-z0-9_]+$
可以输入含有^%&',;=?$\"等字符：[^%&',;=?$\x22]+
禁止输入含有~的字符：[^~\x22]+

特殊需求表达式

Email地址：^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
2 域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3 Internet URL：[a-zA-z]+://[^\s] 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=])?$
4 手机号码：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
5 电话号码（区号有三位和四位两种，中间是连字符-，后面跟着七位或者8位；还有两种没有区号）：^((\d{3,4}-)|\d{3.4}-)?\d{7,8}$
6 国内电话号码（只考虑两种形式4-7&3-8）：\d{3}-\d{8}|\d{4}-\d{7}
7 身份证号(15位、18位数字)：^\d{15}|\d{18}$
8 短身份证号码(数字、字母x结尾)：^([0-9]){7,18}(x|X)?$或^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
9 帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
10 密码（以字母开头，长度在6~18之间，只能包含字母、数字和下划线）：^[a-zA-Z]\w{5,17}$
11 强密码(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间)：^(?=.\d)(?=.[a-z])(?=.*[A-Z]).{8,10}$
12 日期格式：^\d{4}-\d{1,2}-\d{1,2}
13 一年的12个月(01～09和10～12)：^(0?[1-9]|1[0-2])$
14 一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$
15 钱的输入格式：
16 1.有四种钱的表示形式我们可以接受:“10000.00” 和 “10,000.00”, 和没有 “分” 的 “10000” 和 “10,000”：¹[0-9]$
17 2.这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式：^(0|[1-9][0-9])$
18 3.一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号：^(0|-?[1-9][0-9])$
19 4.这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分：²+(.[0-9]+)?$
20 5. 小数点后面至少应该有1位数,所以"10."是不通过的,但是 “10” 和 “10.2” 是通过的：^[0-9]+(.[0-9]{2})?$
21 6.这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样：^[0-9]+(.[0-9]{1,2})?$
22 7.这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样：^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
23 8.1到3个数字,后面跟着任意个逗号+3个数字,逗号成为可选,而不是必须：^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
24 "+“可以用”"替代如果你觉得空字符串也可以接受的话；最后别忘了在用函数时去掉去掉那个反斜杠。
xml文件：^([a-zA-Z]+-?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$
27 双字节字符：[^\x00-\xff] (包括汉字在内，可以用来计算字符串的长度(一个双字节字符长度计2，ASCII字符计1))

29 HTML标记：<(\S?)[^>]>.?</\1>|<.? /> (这个仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力)
30 行首尾空白字符：^\s|\s$或(^\s)|(\s$)(可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等）
31 腾讯QQ号：[1-9][0-9]{4,} (腾讯QQ号从10000开始)

中国邮政编码（6位数字）：[1-9]\d{5}(?!\d)
IP地址：\d+.\d+.\d+.\d+
IP地址：((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))
校验基本日期格式：
/^(\\d{1,4})(-|\\/)(\\d{1,2})\\2(\\d{1,2})$/;
校验密码强度
密码的强度必须是包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间。
^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
由数字、26个英文字母或下划线组成的字符串
^\\w+$
校验身份证号码
15位：
^[1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}$
18位：
^[1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}([0-9]|X)$
校验日期
“yyyy-mm-dd“ 格式的日期校验，已考虑平闰年。
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$
校验金额，精确到2位小数：^[0-9]+(.[0-9]{2})?$
校验手机号（国内 13、14、15、18开头的手机号）：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$
判断IE的版本，用于浏览器版本兼容：^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\/[5-9]\\.0).*$
校验IPv4地址：\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b
校验IP-v6地址：(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))
检查URL的前缀
区分HTTPS和HTTP，通过下面的表达式可以取出一个url的前缀然后再逻辑判断。

if (!s.match(/^[a-zA-Z]+:\\/\\//)) {
    s = 'http://' + s;
}

提取URL链接：^(f|ht){1}(tp|tps):\\/\\/([\\w-]+\\.)+[\\w-]+(\\/[\\w- ./?%&=]*)?
文件路径及扩展名校验：^([a-zA-Z]\\:|\\\\)\\\$[^\\\\]+\\\$*[^\\/:*?"<>|]+\\.txt(l)?$
提取网页中的颜色代码Color Hex Codes：\\#([a-fA-F]|[0-9]){3,6}
提取网页图片：\\< *[img][^\\>]*[src] *= *[\\"\\']{0,1}([^\\"\\'\\ >]*)
提取html页面超链接
(<a\\s*(?!.*\\brel=)[^>]*)(href="https?://)((?!(?:(?:www\\.)?'.implode('|(?:www\\.)?', $follow_list).'))[^"]+)"((?!.*\\brel=)[^>]*)(?:[^>]*)></a\\s*(?!.*\\brel=)[^>
精炼CSS，搜索相同属性值的CSS
^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}
抽取HMTL注释：
匹配HTML标签：\\s]+))?)+\\s*|\\s*)/?>
手机号校验：^(0|86|17951)?(13[0-9]|15[012356789]|17[0-9]|18[0-9]|14[57])[0-9]{8}$
手机正则匹配：^0?1[34578]\d{9}$