前言:
这个系列我分四个部分来分别接触四块知识,最后再串起来:
Java爬虫入门(一)——项目介绍
Java爬虫入门(二)——HttpClient请求
Java爬虫入门(三)——正则表达式
Java爬虫入门(四)——线程池和连接池
Java爬虫入门(五)——缓冲流写入
GitHub地址:
https://github.com/jjc123/Java-Crawler/blob/master/README.md
之前单独学过正则表达式,但是不是很理解到底如何使用,接触了爬虫后才知道 正则是多么的无敌。
正则表达式: 主要用于操作字符串的规则
用于检索替换那些符合规定的文本
预定义字符
.
任何字符
\.
就单纯代表.
\d是 数字
\D 非数字
\s 空白字符 包括\t \n \r
\S 非空白字符
\w 单词字符 比如 a—z A-Z _还有0到9
\W 非单词字符
如果预定义字符没有加上数量词 那就只能匹配一个字符
数量词:
? 一次或者一次也没有
* 0次或者多次
+ 1次或者多次
{n}恰好n次
{n,} 至少n次
{n,m} 至少n次,但是不超过m次
范围词:
没有数量