爬虫练习--正则表达式实战编写步骤--案例：糗事百科

最新推荐文章于 2022-09-02 20:57:16 发布

雀影

最新推荐文章于 2022-09-02 20:57:16 发布

阅读量141

点赞数

分类专栏： Python编程文章标签： python 正则表达式 debug

本文链接：https://blog.csdn.net/weixin_43267605/article/details/112780331

版权

Python编程专栏收录该内容

16 篇文章 1 订阅

订阅专栏

先上代码，在解释：

import requests
from fake_useragent import UserAgent
import re
url = "https://www.qiushibaike.com/text/page/1/"
headers = {
    "User-Agent": UserAgent().random
}
#构造请求,发送请求，返回请求
response = requests.get(url,headers=headers)
info = response.text
# print(info)
infos = re.findall(r'<div class="content">\s*<span>\s*(.+)\s*</span>', info)
print(infos)
with open('duanzi.txt', 'w', encoding='UTF-8') as f:
    for info in infos:
        f.write(info + '\n\n\n')

在代码中最关键的部分就是如何编写正则表达式，下面我们来解释这个这个正则表达式"<div class="content">\s*<span>\s*(.+)\s*</span>"是如何构造出来的：
我们先来找到对应的网址，看看是什么情况：https://www.qiushibaike.com/text/page/1/
然后在infos语句前面打一个断点，这样便于我们调试，且不用频繁的给服务器发送请求：
如图：
在这里插入图片描述

然后再找到我们的源代码，分析内容发现，我们要爬取的内容在<div>标签中

不过，我们需要的是span的内容，再在后面输入
在这里插入图片描述

让我们再来分析源代码，发现<div>与<span>之间有一个换行，而我们并没有将换行符表现出来，这是错误的原因
在这里插入图片描述

此时添加换行符，\s*表示换行0次或多次
在这里插入图片描述

敲回车，发现可以了，当然这里的正则表达式还是不能达到我们的目的的，继续按照以上方式进行编写正则表达式。
在这里插入图片描述

此时，正则表达式已经编写好了，粘贴到代码里面吗就可以了。至此正则表达式的编写已经完成了。

雀影

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫练习--正则表达式实战编写步骤--案例：糗事百科

先上代码，在解释：import requestsfrom fake_useragent import UserAgentimport reurl = "https://www.qiushibaike.com/text/page/1/"headers = { "User-Agent": UserAgent().random}#构造请求,发送请求，返回请求response = requests.get(url,headers=headers)info = response.text#
复制链接

扫一扫