Python3 爬虫学习笔记(三)正则表达式

单字符

.任意一个字符(除\n)
[]列举的一个字符
\d数字(0-9)
\D非数字
\s空白、空格、Tab
\S非空
\w单词字符(a-z,A-Z,0-9,_)
\W非单词字符

多字符

*0-∞
+1-∞
?0或1
{m}m
{m,}m-∞
{m,n}m-n

边界

^

开头

$结尾
\b单词边界
\B非单词边界

分组

|左右任意一个
(ab)一个分组
\num引用 num 分组匹配到的字符串
(?P<name>)分组起别名
(?P=name)引用 name 分组匹配到的字符串
import re

re.match(正则,字符串)      #从字符串开始位置匹配
re.searth(正则,字符串)     #查找第一个
re.findall(正则,字符串)    #全部
re.sub(正则,替换字符串,原字符串)    #替换
re.sub(正则,函数名,原字符串)        #函数返回值替换
re.split(正则,字符串)               #正则分割字符串,返回列表

+?      关闭贪婪模式

例:分隔单词

s = hello world ha ha
re.split(r" +",s)
re.findall(r"\b[a-zA-Z]+\b",s)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值