爬虫常用的正则表达方式

python里的正则化库re,使用方法:

import re
line = 'boooooobby123'
regex_str = "^b.*3$"
re.match(regex_str, line)

正则化用到的特殊字符

  • ^ $ * ? {2} {2, } {2,5} |
  • [] [^] [] [^] [a-z]
  • \s \S \w \W
  • [\u4E00-\u9FA5] () \d
^

^a 匹配以字符a 开头的字符串

$

3$ 匹配以3结尾的字符串

*

^b.*3$ 匹配以b开头以3结尾的,中间有若干重复或不重复的字符(>=0)的字符串

?

非贪婪匹配方式。如果要匹配字符串'boooooobby123' 的子串 'boooooob'。 按正常的想法:

line = 'boooooobby123'
regex_str = ".*(b.*b).*"
match_obj = re.match(regex_str, line)
print(match_obj.group(1))

但是返回的结果是bb 。这是因为默认的是从后向前的贪婪匹配。使用非贪婪的匹配方法:

regex_str = ".*?(b.*b).*"

但输出结果是boooooobb 因为虽然前面使用了非贪婪匹配,但后面还是贪婪的,所以应该是:

regex_str = ".*?(b.*?b).*"
+

前面字符至少出现一次,如b.+b 匹配的就是bbb

{2}

限定字符出现的个数为2

{2,}

限定出现字符个数超过2

{2,5}

限定出现字符个数在2到5之间

|

或关系

line = 'boobby123'
regex_str = "(bobby|boobby)123"
match_obj = re.match(regex_str, line)
print(match_obj.group(1))

结果为boobby,如果想取完整的再加一个括号"((bobby|boobby)123)", 得到boobby123print(match_obj.group(2)) 得到boobby

[]

代表满足中括号里的条件。[abcd]oobby123, 指第一个字符是abcd中的任意一个,[0-9]代表0-9之间的数,[^1] 代表非1 。

比较常用的是匹配电话号码:

line = "18782902222"
regex_str = "(1[48357][0-9]{9})"
match_obj = re.match(regex_str, line)
print(match_obj.group(1))
.

代表任意字符

\s

反斜杠小s:一个空格符号

line = "你 好"
regex_str = "(你\s好)"
\S

反斜杠大s:一个不为空格的符号

\w

反斜杠小w:指[a-zA-Z0-9_]中的任意字符

\W

反斜杠大w:指不为[a-zA-Z0-9_]字符的任意字符

[\u4E00-\u9FA5]

指出现汉字

line = "study in 清华大学"
regex_str = ".*?([\u4E00-\u9FA5]+大学)"

得到清华大学 ,如果没有?则贪婪匹配到华大学

()

用来取子串

\d

提取数字

line = "XXX出生于2011年"
regex_str = ".*(\d{4})年" # 或者 ".*?(\d+)年"

实例

# 能满足匹配下面的5种情况
line = "xxx出生于2001年6月"
line = "xxx出生于2001/6/1"
line = "xxx出生于2001-6-1"
line = "xxx出生于2001-06-01"
line = "xxx出生于2001-06"
regex_str = ".*出生于(\d{4}[年/-]\d{1,2}([月/-]\d{1,2}|[月/-]$|$))"
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值