之前的文章我们介绍了一下 Python 中的正则表达式和与爬虫正则相关的 re 模块,本章我们就利用正则表达式和 re 模块来做一个案例,爬取《糗事百科》的糗事并存储到本地。
我们要爬取的网站链接是 https://www.qiushibaike.com/text/page/1/ 。
我们要爬取的是里面的糗事,在之前的文章中我们已经可以爬取整个 url 链接里的 html 内容,那么我们就可以根据爬取到的 html 代码,再通过 re 模块匹配我们想要的内容即可。
我们通过调用开发者工具检查 HTML 元素发现我们想要的内容在 < div class ="content" > ...... </ div > 内,根据这个我们可以写出代码如下:
1 import urllib.request
2 import re
3 import ssl
4
5 # 取消代理验证
6 ssl._create_default_https_context = ssl._create_unverified_context
7
8 url = "https://www.qiushibaike.com/text/page/1/"
9 # User-Agent头
10 user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4)