前面讨论了代理池的维护和付费代理的相关使用方法,接下来我们进行实战演练,利用代理来爬取微信公众号的文章。
1. 本节目标
我们的主要目标是利用代理爬取微信公众号的文章,提取正文、发表日期、公众号等内容,爬取来源是搜狗微信,其链接为 搜狗微信搜索_订阅号及文章内容独家收录,一搜即达,然后把爬取结果保存到 MySQL 数据库。
2. 准备工作
首先需要准备并正常运行前文中所介绍的代理池。这里需要用的 Python 库有 aiohttp、requests、redis-py、pyquery、Flask、PyMySQL,如这些库没有安装请参考:Python爬虫请求库安装#1-CSDN博客
3. 爬取分析
搜狗对微信公众平台的公众号和文章做了整合。我们可以通过上面的链接搜索到相关的公众号和文章,例如搜索 NBA,可以搜索到最新的文章。