6 爬虫技术基础3—正则表达式

啥都鼓捣的小yao

已于 2023-11-26 16:21:55 修改

阅读量344

点赞数 2

分类专栏： Python大数据挖掘与分析文章标签： python 正则表达式数据挖掘

于 2021-08-05 17:04:04 首次发布

本文链接：https://blog.csdn.net/Eric005/article/details/119420478

版权

Python大数据挖掘与分析专栏收录该内容

35 篇文章 5 订阅

订阅专栏

爬虫技术基础3—正则表达式

正则表达式基础1—findall()函数
正则表达式基础2—非贪婪匹配之(.*?)
正则表达式基础3—非贪婪匹配之.*?
正则表达式基础4—自动考虑换行的修饰符re.S
正则表达式基础5—数据清洗

正则表达式基础1—findall()函数

findall()函数的功能是在原始文本中寻找所有符合匹配规则的文本内容
使用规则：re.findall(匹配规则, 原始文本)
例如，提取“Hello 123 world 456 Python大数据教学789”里的所有三位数字

import re
content = 'Hello 123 world 456 Python大数据教学789'
result = re.findall('\d\d\d',content)
print(result)

输出结果：

[‘123’, ‘456’, ‘789’]

规则符号：
在这里插入图片描述

正则表达式基础2—非贪婪匹配之(.*?)

获取文本A与文本B之间的内容，并不需要知道它的确切长度及格式，但需要知道在哪两个内容之间
使用规则：

文本A(.*?)文本B

例如，提取规则文本中的内容

import re
res = '文本A城市轨道交通与物流学院文本B，新闻标题文本A夺冠文本B，文本ACCTV中央电视台报导文本B'
p_source = '文本A(.*?)文本B'
source = re.findall(p_source, res)
print(source)

输出结果：

[‘城市轨道交通与物流学院’, ‘夺冠’, ‘CCTV中央电视台报导’]

通常我们爬取网页都是规则的，只要找到其中的规律，即可批量提取其信息

正则表达式基础3—非贪婪匹配之.*?

(.*?)用于获取文本A与文本B之间的内容，而不加括号则是因为文本A与文本B之间的内容，经常变动或者说没有规律，无法匹配或者说我们不想要其中的内容，就需要用到它了
使用规则：

文本C.*?文本D

例如：

import re
res = '<h3>文本C<变化的网址>文本D新闻标题</h3>'
p_title = '<h3>文本C.*?文本D(.*?)</h3>'
title = re.findall(p_title, res)
print(title)

输出结果：

[‘新闻标题’]

网页实战例子：

import re
res = '<h3 class="c-title"><a href="网址" data-click="{一堆英文}"><em>阿里巴巴</em>代码竞赛现全球首位AI评委 能为代码质量打分</a>'
p_title = '<h3 class="c-title">.*?>(.*?)</a>'
title = re.findall(p_title, res)
print(title)

输出结果：

[‘阿里巴巴代码竞赛现全球首位AI评委能为代码质量打分’]

这里的.*?代表的就是< h3 class=“c-title”>与>之间的内容

正则表达式基础4—自动考虑换行的修饰符re.S

re.S的做用手在使用findall()查找时，可以自动考虑换行的影响，使得.*?可以匹配换行
使用规则：

re.findall(匹配规则，原始文本，re.S)

例如，爬取网页中的链接，标题：

import re
res = '''<h3 class="c-title">
 <a href="https://baijiahao.baidu.com/s?id=1631161702623128831&amp;wfr=spider&amp;for=pc"
    data-click="{
      一堆我们不关心的英文或者是俄文
      }"
                target="_blank"
    >
      <em>阿里巴巴</em>代码竞赛现全球首位AI评委 能为代码质量打分
    </a>
'''

p_href = '<h3 class="c-title">.*?<a href="(.*?)"'
p_title = '<h3 class="c-title">.*?>(.*?)</a>'
href = re.findall(p_href, res, re.S)
title = re.findall(p_title, res, re.S)
print(href)
print(title)

# 清除换行符号（利用的是strip()函数）
for i in range(len(title)):
    title[i] = title[i].strip()
print(title)

输出结果：

[‘https://baijiahao.baidu.com/s?id=1631161702623128831&wfr=spider&for=pc’]
[‘\n 阿里巴巴代码竞赛现全球首位AI评委能为代码质量打分\n ‘]
[’阿里巴巴代码竞赛现全球首位AI评委能为代码质量打分’]

正则表达式基础5—数据清洗

利用sub()函数
使用规则：

re.sub(需要替换的内容，替换值，原字符串)

如上面我们求到了 [‘阿里巴巴代码竞赛现全球首位AI评委能为代码质量打分’]，进行数据清洗：

import re
title = ['<em>阿里巴巴</em>代码竞赛现全球首位AI评委 能为代码质量打分']
title[0] = re.sub('<.*?>', '', title[0])
print(title[0])

输出结果：

阿里巴巴代码竞赛现全球首位AI评委能为代码质量打分

特别的：
在正则表达式中 . 、* 、？、都有特殊的意义，若要替换他们，则需要加上[]
例如：

city = '*中国北京'
city1 = re.sub('[*]', '', city)
print(city1)

输出结果：

中国北京

啥都鼓捣的小yao

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
2
评论
6 爬虫技术基础3—正则表达式

爬虫技术基础3—正则表达式正则表达式基础1—findall()函数正则表达式基础2—非贪婪匹配之(.*?)正则表达式基础3—非贪婪匹配之.*?正则表达式基础4—自动考虑换行的修饰符re.S正则表达式基础5—数据清洗正则表达式基础1—findall()函数findall()函数的功能是在原始文本中寻找所有符合匹配规则的文本内容使用规则：re.findall(匹配规则, 原始文本)例如，提取“Hello 123 world 456 Python大数据教学789”里的所有三位数字import reco
复制链接

扫一扫