Java爬虫入门(三)——正则表达式

本文是Java爬虫入门系列的第三部分,主要讲解正则表达式的使用,包括预定义字符、数量词、范围词以及匹配、切割和替换功能。通过实例解析了正则表达式的各种规则,强调了边界匹配的重要性,并介绍了捕获组和贪婪与非贪婪匹配的概念。
摘要由CSDN通过智能技术生成

前言:

这个系列我分四个部分来分别接触四块知识,最后再串起来:
Java爬虫入门(一)——项目介绍
Java爬虫入门(二)——HttpClient请求
Java爬虫入门(三)——正则表达式
Java爬虫入门(四)——线程池和连接池
Java爬虫入门(五)——缓冲流写入
GitHub地址:

https://github.com/jjc123/Java-Crawler/blob/master/README.md

之前单独学过正则表达式,但是不是很理解到底如何使用,接触了爬虫后才知道 正则是多么的无敌。

正则表达式: 主要用于操作字符串的规则
用于检索替换那些符合规定的文本

预定义字符

. 任何字符
\. 就单纯代表.
\d是 数字
\D 非数字
\s 空白字符 包括\t \n \r
\S 非空白字符
\w 单词字符 比如 a—z A-Z _还有0到9
\W 非单词字符

如果预定义字符没有加上数量词 那就只能匹配一个字符

数量词:

? 一次或者一次也没有
* 0次或者多次
+ 1次或者多次
{n}恰好n次
{n,} 至少n次
{n,m} 至少n次,但是不超过m次

范围词:

没有数量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值