正则速通

最新推荐文章于 2023-11-02 08:54:14 发布

rptina

最新推荐文章于 2023-11-02 08:54:14 发布

阅读量191

点赞数

文章标签：正则

本文链接：https://blog.csdn.net/rptina/article/details/80243024

版权

正则表达式可以让处理文本的速率咻咻的往上提高，以前不会玩正则的时候，在对一段文本内容的提取时，那真的是，用火箭炮打毛毛虫的感觉，码半天，还不一定高效，虽然能得出结果，但是，完全没有编码体验，对自己的感觉，就是菜，举个不成熟的例子：“小明约小红，2018-06-07去湖南路88-2号去玩。”需求说，我就要这段文字的2018-06-07 或者就要2018和06-07，再举个日期的例子:比如用户录入信息，每个人提交自己的生日，最后汇聚起来，有的人写了19900101，有的人写的1990-01-01，有的写的1990/01/01,有的写的1990*01*01，好，需要把这些全部过滤提取起来。
以上都是对于文本的内容的提取和过滤，我所举的案例，如果使用正则的方式去实现的话，都是极其简单的
我们先理解正则中的一些元素，说话先会说词，明白每个元素的意思，再连接在一起就简单多了，正则语言，比英语可简单多了
元字符
^行的开始 ^cat 用来匹配文本在这一行的开头
$行的结束 cat$ 只寻找定位于行末的cat

字符组（[ ]）
[……]匹配若干字符之一，使用者列出在某处期望匹配的字符，通常被称作字符组
例如gr[ea]y 的意思是，先找到g，跟着一个r，然后一个a或者e，最后一个是y。在普通字符’g’ ‘r’部分是先匹配g再匹配r ，但是在[ ]中是匹配e或者a，并不存在顺序上的关联，[ea]的意思也是只匹配r之后一个字符是a或者是e，不在匹配字符组字符之后的其他字符
如H[1234567890],只匹配H1,H2,H3,H4,H5,H6,H7等且等同于H[0-9]
也可以实现多重范围写作[ 0- 9a- fA- F]
只有在字符组内部，连字符（-）才是元字符–否则它就只能匹配普通的连字字符，如果连字符出现在字符组的开头（即紧跟[或者[^）它就表示的就是一个普通的字符，而不是一个范围，问号和点号通常被当作元字符处理，但在字符组中则不是如此，就是普通的字符。

[^……] 在这个字符组中^是除……之外的意思，比如[^1-6]处1到6的数字之外的其他任何字符，在字符组外部它表示一个锚点，即行的开始
排除型字符组表示’匹配一个未列出的字符’而不是‘不要匹配列出的字符’

用点号匹配单个任意字符元字符 (.)
在[ ]中点号并不是元字符只是普通字符

字符组基本可以算是一门独立的微型语言（例如，对于元字符，它们有自己的规定），而多选结构是“ 正则表达式语言主体（ main regular expression language）” 的一部分。你将会发现，这两者都非常有用。

可选项字符（？）

「u？」这个元字符与我们之前看到的元字符都不相同，它只作用于之前紧邻的元素。因此，「 colou？ r」的意思是：「 c」，然后是「 o」，然后是「 l」，然后是「 o」，然后是「 u？」，最后是「 r」。
「u？」是必然能够匹配成功的，有时它会匹配一个 u，其他时候则不匹配任何字符。

所以可以算一个量词，有或无

重复出现（+和*）
+表示与之前紧邻的元素出现一次或者多次
*表示与之前紧邻的元素出现任意多次或者不出现

就是，「…＊」表示“ 匹配尽可能多的次数，如果实在无法匹配，也不要紧”。「…+」的意思与之类似，也是匹配尽可能多的次数，但如果连一次匹配都无法完成，就报告失败。问号、加号和星号这 3 个元字符，统称为量词（ quantifiers），因为它们限定了所作用元素的匹配次数。
？和*号是永远不会匹配失败的

规定重现次数的范围：区间（｛｝）
区间：「…{ min， max}」。这称为“ 区间量词（ interval quantifier）”。例如，「…{ 3， 12}」能够容许的重现次数在 3 到 12 之间。有人可能会用「[ a- zA- Z]{ 1， 5}」来匹配美国的股票代码（ 1 到 5 个字母）。问号对应的区间量词是{ 0， 1}。

括号及反向引用（）
主要的功能是限制多选项的范围

其他还有很多其他的一些表达式语法，但是基础常用的就是这些，一般就是元字符，字符组，点，多选分支，量词，区间，括号，这样就几乎写出几千万化的正则表达式了。
要想解决我们开始抛出的问题，还需要了解一个很重要的概念，叫做捕获组。

捕获组
捕获组是把多个字符当一个单独单元进行处理的方法，它通过对括号内的字符分组来创建。
例如，正则表达式 (dog) 创建了单一分组，组里包含”d”，”o”，和”g”。
捕获组是通过从左至右计算其开括号来编号。例如，在表达式（（A）（B（C））），有四个这样的组：
((A)(B(C)))
(A)
(B(C))
(C)

可以通过调用 matcher 对象的 groupCount 方法来查看表达式有多少个分组。groupCount 方法返回一个 int 值，表示matcher对象当前有多个捕获组。
还有一个特殊的组（group(0)），它总是代表整个表达式。该组不包括在 groupCount 的返回值中。

简单说，就是通过括号，可以捕获到我们想要的数据
让我们再回到开始的问题，第一个问题是在一段文字中扣出我们要的日期数据，就可以写成(\d{4})-(\d{2}-\d{2}),如此一来，第一个括号就补货到了年份这个数据，后面的括号就补货到了月份和日期的数据，2018和06-07，非常好用，再看第二个问题，各种日期格式获取这个问题依然非常简单，如果我们不用正则的话，本身逻辑也不复杂，多个if语句判断即可，但是万一多加了一个特殊分隔符的话就必须多加一个判断分支，想想就很麻烦，用正则就很简单，还是\d{4}(.?)\d{2}(.?)\d{2},就是这么简单，点可以匹配任意字符，？是可有可无，这样它只会匹配任意年月份特殊分割的字符，代码处理极其简洁。
我写的正则都是极其简单的，但掌握这些算是能够应对一般的文本问题了。