史上最全正则表达式语法

本文详细介绍了正则表达式的元字符,如.、w、s、d、b、^和$,以及重复限定符、分组、转义、条件或|、区间[ ]、零宽断言、捕获与非捕获、反向引用、贪婪与非贪婪匹配和反义元字符。通过实例解析了如何使用这些概念进行字符串匹配和操作,帮助读者快速入门正则表达式。
摘要由CSDN通过智能技术生成

一、元字符

元字符是构造正则表达式的一种基本元素。

. :匹配除换行符以外的任意字符

w:匹配字母或数字或下划线或汉字

s:匹配任意的空白符

d:匹配数字

b:匹配单词的开始或结束

^:匹配字符串的开始

$:匹配字符串的结束

匹配有abc开头的字符串:abc或者^abc
 
匹配8位数字的QQ号码:^dddddddd$
 
匹配1开头11位数字的手机号码:^1dddddddddd$

二、重复限定符

正则没提供办法处理这些重复的元字符吗?答案肯定是有的。

*:重复零次或更多次

+:重复一次或更多次

?:重复零次或一次

{n}:重复n次

{n,}:重复n次或更多次

{n,m}:重复n到m次

有了这些限定符之后,我们就可以对之前的正则表达式进行改造了,比如:

匹配8位数字的QQ号码:^d{
   8}$
 
匹配1开头11位数字的手机号码:^1d{
   10}$
 
匹配银行卡号是14~18位的数字:^d{
   14,18}$
 
匹配以a开头的,0个或多个b结尾的字符串^ab*$

三、分组()

限定符是作用在与他左边最近的一个字符,那么问题来了,如果我想要ab同时被限定那怎么办呢?

正则表达式中用小括号()来做分组,也就是括号中的内容作为一个整体。

因此当我们要匹配多个ab时,我们可以这样。

如匹配字符串中包含0到多个ab开头:^(ab)*

四、转义

正则提供了转义的方式,也就是要把这些元字符、限定符或者关键字转义成普通的字符,做法很简答,就是在要转义的字符前面加个斜杠,也就是\即可。

匹配字符串中包含0到多个ab开头:^(\(ab\))*

五、条件或 |

回到我们刚才的手机号匹配,我们都知道:国内号码都来自三大网,它们都有属于自己的号段,比如联通有130/131/132/155/156/185/186/145/176等号段,假如让我们匹配一个联通的号码,那按照我们目前所学到的正则,应该无从下手的,因为这里包含了一些并列的条件,也就是“或”,那么在正则中是如何表示“或”的呢?

  • 正则用符号 | 来表示或,也叫做分支条件,当满足正则里的分支条件的任何一种条件时,都会当成是匹配成功。

那么我们就可以用或条件来处理这个问题

^(130|131|132|155|156|185|186|145|176)\d{
   8}$

六、区间[ ]

看到上面的例子,是不是看到有什么规律?是不是还有一种想要简化的冲动?
实际是有的

  • 正则提供一个元字符中括号 [] 来表示区间条件。

    限定0到9 可以写成[0-9]

    限定A-Z 写成[A-Z]

    限定某些数字 [165]

那上面的正则我们还改成这样:

^((13[0-2])|(15[56])|(18[5-6])|145|176)\d{
   8}$

七、正则进阶之零宽断言

  • 断言:俗话的断言就是“我断定什么什么”,而正则中的断言,就是说正则可以指明在指定的内容的前面或后面会出现满足指定规则的内容,
    意思正则也可以像人类那样断定什么什么,比如"ss1aa2bb3",正则可以用断言找出aa2前面有bb3,也可以找出aa2后面有ss1.
  • 零宽:就是没有宽度,在正则中,断言只是匹配位置,不占字符,也就是说,匹配结果里是不会返回断言本身。

我们来举个栗子:
假设我们要用爬虫抓取csdn里的文章阅读量。通过查看源代码可以看到文章阅读量这个内容是这样的结构

"<span class="read-count">阅读数:641</span>"

其中也就‘641’这个是变量,也就是说不同文章不同的值,当我们拿到这个字符串时,需要获得这里边的‘641’有很多种办法,但如果正则应该怎么匹配呢?下面先来讲几种类型的断言:

  • 正向先行断言(正前瞻):

    语法:(?=pattern)

    作用:匹配pattern表达式的前面内容,不返回本身。

这样子说,还是一脸懵逼,好吧,回归刚才那个栗子,要取到阅读量,在正则表达式中就意味着要能匹配到‘’前面的数字内容
按照上所说的正向先行断言可以匹配表达式前面的内容,那意思就是:(?=) 就可以匹配到前面的内容了。
匹配什么内容呢?如果要所有内容那就是:

 String reg=".+(?=</span>)";
 
 String test = "<span class=\"read-count\">阅读数:641</span>";
 Pattern pattern = Pattern.compile(reg);
 Matcher mc= pattern.matcher(test);
 while(mc.find()){
   
   System.out.println("匹配结果:")
   System.out.println(mc.group());
 }
 //匹配结果:
//<span class="read-count">阅读数:641

可是老哥我们要的只是前面的数字呀,那也简单咯,匹配数字 \d,那可以改成:

String reg="\\d+(?=</span>)";
String test = "<span class=\"read-count\">阅读数:641</span>"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值