爬虫数据提取-正则表达式

介绍

对于爬虫数据的提取解析,正则表达式是常用的工具,通过其各种匹配规则,我们可以方便的从页面提取我们想要的内容。

1、常用方法

1.1、match

match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none,语法格式:re.match(pattern, string, flags=0)

import re

str = 'One day the hour in the morning is worth two in the evening'
print(re.match(r'One day', str))  # 直接输出返回对象
print(re.match(r'One day', str).group())  # 通过group()提取匹配内容
print(re.match(r'day', str))  # 从中间开始匹配,返回None值

执行结果如下,我们需要通过group()函数才能提取匹配的内容,否则输出的是整个返回对象

<_sre.SRE_Match object; span=(0, 7), match='One day'>
One day
None

1.2、search

search扫描整个字符串并返回第一个成功的匹配,语法格式:re.search(pattern, string, flags=0)

import re

str = 'One day the hour in the morning is worth two in the evening'
print(re.search(r'the', str).group())

执行结果如下,返回了匹配到的第一个the

the

1.3、sub

sub替换掉匹配到的字符串,语法格式:re.sub(pattern,replace,string)

import re

str = 'One day the hour in the morning is worth two in the evening'
print(re.sub(r'the', r'Hello', str))

执行结果如下,将所有the替换成了Hello

One day Hello hour in Hello morning is worth two in Hello evening

1.4、findall

findall查找匹配到的全部内容,语法格式:re.findall(pattern,string,flags=0)

import re

str = 'One day the hour in the morning is worth two in the evening'
print(re.findall(r'the', str))

执行结果如下,返回了所有匹配到的the

['the', 'the', 'the']

1.5、通过re提取html标签中内容

下面示例是通过正则提取所有a标签中的内容

import re

str = '<div>' \
       '<a>新闻</a>' \
       '<a>地图</a>' \
       '<a>贴吧</a>' \
       '</div>'
print(re.findall(r'<a>(.*?)<', str))

执行结果

['新闻', '地图', '贴吧']

2、常见匹配规则

规则说明
^匹配字符串的开头
$匹配字符串的末尾
.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符
[…]用来表示一组字符,单独列出:[abc] 匹配 ‘a’,‘b’或’c’
[^…]不在[]中的字符:[^abc] 表示匹配除了a,b,c之外的字符
re*匹配0个或多个的表达式
re+匹配1个或多个的表达式
re?匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式
re{ n,}精确匹配n个前面表达式
re{ n, m}匹配 n 到 m 次由前面的正则表达式定义的片段,贪婪方式
(re)匹配括号内的表达式,也表示一个组
(?#…)注释
\w匹配字母数字及下划线
\W匹配非字母数字及下划线
\s匹配任意空白字符,等价于 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意数字,等价于 [0-9]
\D匹配任意非数字
\A匹配字符串开始
\Z匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串
\z匹配字符串结束
\G匹配最后匹配完成的位置
\b匹配一个单词边界,也就是指单词和空格间的位置。例如, ‘er\b’ 可以匹配"never" 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’
\B匹配非单词边界。‘er\B’ 能匹配 “verb” 中的 ‘er’,但不能匹配 “never” 中的 ‘er’
\n匹配一个换行符
\t匹配一个制表符
\1…\9匹配第n个分组的内容
\10匹配第n个分组的内容,如果它经匹配。否则指的是八进制字符码的表达式
[\u4e00-\u9fa5]匹配中文
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值