爬虫数据提取-正则表达式

最新推荐文章于 2024-07-30 14:00:34 发布

为谁攀登

最新推荐文章于 2024-07-30 14:00:34 发布

阅读量833

点赞数

分类专栏： # 爬虫文章标签： python

本文链接：https://blog.csdn.net/shaixinxin/article/details/106867344

版权

爬虫专栏收录该内容

16 篇文章 0 订阅

订阅专栏

介绍

对于爬虫数据的提取解析，正则表达式是常用的工具，通过其各种匹配规则，我们可以方便的从页面提取我们想要的内容。

1、常用方法

1.1、match

match尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none，语法格式：re.match(pattern, string, flags=0)

import re

str = 'One day the hour in the morning is worth two in the evening'
print(re.match(r'One day', str))  # 直接输出返回对象
print(re.match(r'One day', str).group())  # 通过group()提取匹配内容
print(re.match(r'day', str))  # 从中间开始匹配，返回None值

执行结果如下，我们需要通过group()函数才能提取匹配的内容，否则输出的是整个返回对象

<_sre.SRE_Match object; span=(0, 7), match='One day'>
One day
None

1.2、search

search扫描整个字符串并返回第一个成功的匹配，语法格式：re.search(pattern, string, flags=0)

import re

str = 'One day the hour in the morning is worth two in the evening'
print(re.search(r'the', str).group())

执行结果如下，返回了匹配到的第一个the

the

1.3、sub

sub替换掉匹配到的字符串，语法格式：re.sub(pattern,replace,string)

import re

str = 'One day the hour in the morning is worth two in the evening'
print(re.sub(r'the', r'Hello', str))

执行结果如下，将所有the替换成了Hello

One day Hello hour in Hello morning is worth two in Hello evening

1.4、findall

findall查找匹配到的全部内容，语法格式：re.findall(pattern,string,flags=0)

import re

str = 'One day the hour in the morning is worth two in the evening'
print(re.findall(r'the', str))

执行结果如下，返回了所有匹配到的the

['the', 'the', 'the']

1.5、通过re提取html标签中内容

下面示例是通过正则提取所有a标签中的内容

import re

str = '<div>' \
       '<a>新闻</a>' \
       '<a>地图</a>' \
       '<a>贴吧</a>' \
       '</div>'
print(re.findall(r'<a>(.*?)<', str))

执行结果

['新闻', '地图', '贴吧']

2、常见匹配规则

规则	说明
^	匹配字符串的开头
$	匹配字符串的末尾
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符
[…]	用来表示一组字符,单独列出：[abc] 匹配 ‘a’，‘b’或’c’
[^…]	不在[]中的字符：[^abc] 表示匹配除了a,b,c之外的字符
re*	匹配0个或多个的表达式
re+	匹配1个或多个的表达式
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n,}	精确匹配n个前面表达式
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
(re)	匹配括号内的表达式，也表示一个组
(?#…)	注释
\w	匹配字母数字及下划线
\W	匹配非字母数字及下划线
\s	匹配任意空白字符，等价于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9]
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结束
\G	匹配最后匹配完成的位置
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’
\B	匹配非单词边界。‘er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’
\n	匹配一个换行符
\t	匹配一个制表符
\1…\9	匹配第n个分组的内容
\10	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式
[\u4e00-\u9fa5]	匹配中文