目录
正则表达式
Regular Expression 正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则
抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容,用正则再合适不过了。
正则的有点:速度快,效率高,准确性高
正则的缺点:新手上手难度有点高
不过只要掌握了正则编写的逻辑关系,写出一个提取页面内容的正则其实并不复杂
正则的语法:使用元字符进行排列组合用来匹配字符串 在线测试正则表达式https://tool.oschina.net/regex/
元字符:具有固定含义的特殊符号
常用元字符:
量词:控制前面的元字符出现的次数
* 重复零次或更多次
+ 重复一次或更多次
?重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次