005 爬虫之正则表达式

最新推荐文章于 2024-04-21 13:07:44 发布

豆豆orz

最新推荐文章于 2024-04-21 13:07:44 发布

阅读量340

点赞数

分类专栏： python 爬虫文章标签：爬虫正则表达式 python

本文链接：https://blog.csdn.net/runnoob_1115/article/details/78419475

版权

本文深入探讨了Python中的正则表达式，包括正则的基本概念、匹配模式、`re.match`、`re.search`的用法，重点讲解了贪婪与非贪婪匹配，以及`re.findall`和`re.sub`的功能。文中还提供了实例演练和项目实战，以加深对正则表达式在爬虫中应用的理解。

摘要由CSDN通过智能技术生成

- 什么是正则表达式
- 正则表达式

1.什么是正则表达式

正则表达式就是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定的字符、以及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。
非Python独有，re模块实现

2.正则表达式

1.常见匹配模式

模式	描述
\w	匹配字母数字及下划线
\W	匹配非字母数字下划线
\s	匹配任意空白字符，等价于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9]
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结束
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[…]	用来表示一组字符,单独列出：[amk] 匹配 ‘a’，’m’或’k’
[^…]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
*	匹配0个或多个的表达式。
+	匹配1个或多个的表达式。
?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
{n}	精确匹配n个前面表达式。
{n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\|b	匹配a或b
( )	匹配括号内的表达式，也表示一个组

2.re.match(从第一个字符开始匹配)

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

re.match(pattern, string, flags=0)

1.最常规的匹配

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{
   4}\s\w{
   10}.*Demo$', content)
print(result)
print(result.group())
print(result.span())

2.泛匹配

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result)
print(result.group())
print(result.span())

3.匹配目标

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld.*Demo$', content)
print(result)
print(result.group(1))
print(result.span())

如果正则表达式中出现了括号，那么第一个小括号里出现的内容可以用.group(1)代替，第二个小括号里出现的内容可以用.group(2)代替。

4.贪婪匹配

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))

贪婪模式中.*会匹配尽可能多的字符

5.非贪婪匹配

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))

非贪婪模式中.*?匹配尽可能少的字符

6.匹配模式

import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
print(result.group(1))

.不能匹配换行符，加上re.S之后才可以匹配包括换行符在内的任意字符

7.转义

import re

content = 'price is $5.00'
result = re.match('price is $5.00', content)
print(result)

结果是 None 含有$符需要转义

import re

content = 'price is $5.00'
result = re.match('price is \$5\.00', content)
print(result)

加上转义符号（反斜杠\）即可匹配成功在$和.前面都加上\

8.总结

尽量使用泛匹配、使用括号得到匹配目标、尽量使用非贪婪模式、有换行符就用re.S

3.re.search(从扫描到的第一个开始匹配)

re.search 扫描整个字符串并返回第一个成功的匹配。

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo', content)
print(result)

用match方法不能匹配到

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.search('Hello.*?(\d+).*?Demo', content)
print(result)
print(result.group(1))

用search方法可以匹配

1.总结

为匹配方便，能用search就不用match

2.匹配演练

import re

html = '''<div id="songs-list">
    &

最低0.47元/天解锁文章

豆豆orz

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录