6.爬虫数据提取——正则表达式

一、单字符匹配规则

方式描述
点(.)匹配任意字符
\d匹配任意数字
\D匹配任意非数字
\s匹配空白字符
\w匹配小写的a-z、大写A-Z、数字0-9和下划线_
\W匹配除小写\w之外的内容
[ ]组合方式进行匹配,满足[ ]内的均可匹配

二、多字符匹配规则

方式描述
星号(*)匹配0个或任意多个字符
加号(+)匹配1个或任意多个字符
问号(?)要么匹配0个,要么匹配1个
{m}匹配指定的m个字符
{m,n}匹配m-n个字符,取最多

三、匹配规则替代方案

方式描述替代方式
\d匹配所有数字[0-9]
\D匹配所有非数字[^0-9]
\w匹配所有数字、字母和下划线[0-9a-zA--Z_]
\W匹配所有非数字、字母和下划线[^0-9a-zA--Z_]
[\w\W]或[\d\D]匹配所有字符 

四、特殊规则

1.在中括号内不再有特殊含义的字符

[.]  [*] [?] 等仅表示匹配点(.)、星号(*)、问号(?)。


扫描二维码即可参与该课程,解锁更多爬虫知识:

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值