Regular Expression,一种是用表达式对字符串进行匹配的语法规则。
我们抓取的网页源代码本质上就是一个超长的字符串,想从里面提取内容,用正则再合适不过了。
正则的优点:速度快,效率高,准确性好。
正则的缺点:对新手(本人就是新手)上手难度有点高
正则的语法:使用元字符进行排列组合来匹配字符串。
常用的元字符:
. 匹配换行符以外的任意字符
\w 匹配字母或数字或下滑线
\s 匹配任意空白符
\d 匹配数字
\n 匹配换行
\t 匹配制表符
^ 匹配字符串的开始
$ 匹配字符串的结尾
\W 匹配非字母或非数字或非下划线
\D 匹配非数字
\S 匹配非空白符
a|b 匹配字符a或字符b
() 匹配括号里的表达式,也表示一个组
[...] 匹配字符组中的字符
[^...] 匹配除了字符组中的字符的所有字符
量词:控制前面的元字符出现的次数
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次
贪婪匹配和惰性匹配
.* 贪婪匹配
.*? 惰性匹配
贪婪匹配:匹配最多的
惰性匹配:匹配最近的