Python 爬虫从入门到进阶之路（九）

最新推荐文章于 2024-03-07 15:41:07 发布

大咖爱爬虫

最新推荐文章于 2024-03-07 15:41:07 发布

阅读量249

点赞数

文章标签： python python爬虫 python入门

本文链接：https://blog.csdn.net/ajian6/article/details/94645440

版权

本文介绍了如何使用Python的re模块结合正则表达式，爬取《糗事百科》网站上的内容，并将数据存储到本地。首先，通过分析HTML结构找到目标内容所在的

标签，然后编写代码提取所需信息，过滤掉多余的HTML元素。最终，实现了爬取多个页面并将数据保存到本地txt文件的功能。

摘要由CSDN通过智能技术生成

之前的文章我们介绍了一下 Python 中的正则表达式和与爬虫正则相关的 re 模块，本章我们就利用正则表达式和 re 模块来做一个案例，爬取《糗事百科》的糗事并存储到本地。

我们要爬取的网站链接是 https://www.qiushibaike.com/text/page/1/ 。

我们要爬取的是里面的糗事，在之前的文章中我们已经可以爬取整个 url 链接里的 html 内容，那么我们就可以根据爬取到的 html 代码，再通过 re 模块匹配我们想要的内容即可。

我们通过调用开发者工具检查 HTML 元素发现我们想要的内容在 < div class ="content" > ...... </ div > 内，根据这个我们可以写出代码如下：

 1 import urllib.request
 2 import re
 3 import ssl
 4 
 5 # 取消代理验证
 6 ssl._create_default_https_context = ssl._create_unverified_context
 7 
 8 url = "https://www.qiushibaike.com/text/page/1/"
 9 # User-Agent头
10 user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4)

最低0.47元/天解锁文章

大咖爱爬虫

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫从入门到进阶之路（九）

之前的文章我们介绍了一下 Python 中的正则表达式和与爬虫正则相关的 re 模块，本章我们就利用正则表达式和 re 模块来做一个案例，爬取《糗事百科》的糗事并存储到本地。我们要爬取的网站链接是https://www.qiushibaike.com/text/page/1/。我们要爬取的是里面的糗事，在之前的文章中我们已经可以爬取整个 url 链接里的 html 内容，那么我们就...
复制链接

扫一扫