Java——正则表达式

汤姆大聪明

于 2024-05-19 15:16:01 发布

阅读量773

点赞数 12

分类专栏： JavaSE基础文章标签： java 正则表达式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74808313/article/details/132168949

版权

JavaSE基础专栏收录该内容

24 篇文章 3 订阅

订阅专栏

一.正则表达式

1.概述

正则表达式可以校验字符串是否满足一定的规则，并用来校验数据格式的合法性

我们可以把正则表达式理解为是一种规则，这种规则就是可以用来校验字符串

2.Pattern与Matcher

⑴概述

①Pattern类为正则表达式的编译表现形式

②Matcher类为Pattern对Character sequence(文本)执行匹配操作的引擎(文本匹配器)

⑵常见方法摘要

①Pattern类

②Matcher类

3.正则表达式的常用构造摘要

正则表达式其实就是字符拼凑出来的规则

⑴字符类

其中表示对一个字符的匹配

⑵预定义字符

其中表示对一个字符的匹配

反斜线字符 ('\') 用于引用转义构造，同时还用于引用其他将被解释为非转义构造的字符。因此，表达式 \\ 与单个反斜线匹配，而 \{ 与左括号匹配

如图:若我要使用预定义字符，其中\\才表示上表的\

⑶数量词

4.正则表达式的作用

⑴校验字符串是否满足规则

字符串中定义了一个Matchers方法用来校验字符串是否满足给定的规则

boolean matches(String regex)

方法的底层就是调用的Pattern类中的marches方法

⑵在一段文本中查找满足要求的内容(爬取数据)

如何在一段文本中查找满足要求的内容？

第一步:写好规则(正则表达式)

第二步:获取文本匹配器

第三步:利用文本匹配器从头开始读取，将符合要求的内容截取

第四步:获取截取的内容

利用这四步思路，我们看一下如何利用代码实现

①本地爬取

如图:我想要获取下面文本的关键词"路飞"，我们定义规则然后调用方法

②网络爬取

网络爬取就是在本地爬取的基础上多了个读取网络内容的要求

5.正则表达式在字符串中的使用

replaceAll其中的regex是正则表达式，newStr是要替换的内容

6.爬虫

⑴贪婪爬取

在爬取的时候尽可能的多获取数据

Java中默认的是贪婪爬取，数量词+或*就表示贪婪爬取

如图:我想要尽可能的多获取b

⑵非贪婪爬取

在爬取的时候尽可能的少获取数据

在Java中默认的是贪婪爬取，如果我们在数量词+或*的后面加上问号，就表示非贪婪爬取

⑶带条件的爬取

带条件的爬取就是我们可以一次性爬取到不同的内容

如:一段文本中包含"a1","a2","a3"等等关键词，我想要统计其中aX出现的个数，就可以定义正则

a(？:1|2|3)

7.组和捕获

⑴捕获分组

捕获分组就是把这一组的数据捕获出来，再用一次

Ⅰ.规则

捕获组可以通过从左到右计算其开括号来编号

规则1:从1开始连续不间断

规则2:以左括号为基准，最左边的是第一组，其次是第二组，以此类推

Ⅱ.组的使用

正则内部使用:\\组号

如图:我要判断一个字符串的开始字符与结束字符是否一致

正则外部使用:$组号

如图:我要去除文本中的重复字符

⑵非捕获分组

分组之后不需要再使用本组数据，仅仅是把数据括起来

以(?)开头的组是纯的非捕获分组，也就是我们不能再去调用该正则表达式

上面的(？:) ，(？！)以及(？=)均是非捕获分组

汤姆大聪明

关注

12
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

汤姆大聪明 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。