爬虫学习正则表达式

一、概念

Regular Expression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则。

二、优缺点

正则表达式的优点:速度快,效率高。准确性高

                      缺点:上手难度较高

三、语法

正则表达式的语法:使用元字符进行排列组合用来匹配字符串

元字符:具有固定含义的特殊符号

.   #匹配除换行符以外的任意字符
\w  #匹配字母或数字或下划线
\s  #匹配任意的空白符
\d  #匹配数字
\n  #匹配一个换行符
\t  #匹配一个制表符
^   #匹配字符串的开始
$   #匹配字符串的结尾
\W 匹配非字母或数字或下划线
\D 匹配非数字
\S 匹配非空白符
a|b 匹配字符a或字符b
() 匹配括号内的表达式,也表示一个组
[...]匹配字符组中的字符
[^...] 匹配除了字符组中字符的所有字符

 量词:控制前面的元字符出现的次数

* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

贪婪匹配和惰性匹配 

.*  贪婪匹配
.*?  惰性匹配

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值