大家好,我是小焦。今天给大家来说一说微信公众号的爬虫,提起这个爬虫我也是一肚子气。为什么呢?本来计划好好的,要做几个功能的。结果人算不如天算,只能草草了事了。老马的反爬还是有点厉害的。最初的设想是爬到公众号的文章,然后找到我们需要的公众号,然后将里面的内容提取的。结果遇到反爬,换cookie,使用selenium都会被检测到。技术薄微,也只能暂时止步。
爬虫思路:
起初,我是准备写一个类,完成爬取动作,后期进行调用的,结果发现没有函数好用,就进行了修改。整体流程就是利用搜狗微信的功能,来完成指定公众号的文章爬取。然后将文章链接保存到word文档中。
在研究搜狗微信的过程中,发现了几个小毛病。搜狗微信就跟搜索引擎差不多,作者发表一篇文章,要隔断时间才会在它上面显示,有的快有的慢。包括微信客户端,手机上推文和电脑端的也有时间差,有的甚至一直没更新。这也是我放弃此爬虫的原因吧。好了不讲这些了,来看看下面的代码吧,作为小白,乱写一通,大神不喜勿喷啊。
准备工作:
python3
调用的库:requests,urllib,pyquery,time,docx-python,datetime
这几个库就不用多做解释了,会爬虫的小伙伴经常会用到。docx是word的库,pyquery是解析库,大伙都认识。下面是我写的代码,大家仅供参考吧。
# 2020年8月29日
# 本次目标利用搜狗微信网站,进行指定公众号文章最新内容爬取。
import requests
from urllib.parse import quote