前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者:徐洲更
为了实现该爬虫我们需要用到如下工具
- Chrome浏览器
- Python 3 语法知识
- Python的Requests库
此外,这个爬取程序利用的是微信公众号后台编辑素材界面。原理是,当我们在插入超链接时,微信会调用专门的API(见下图),以获取指定公众号的文章列表。因此,我们还需要有一个公众号。
![910e6fd7813b759300165063e4224204.png](https://i-blog.csdnimg.cn/blog_migrate/cf1e007c838627a2a196a8b97f0e621d.jpeg)
正式开始
我们需要登录微信公众号,点击素材管理,点击新建图文消息,然后点击上方的超链接。
![807afe4108895a456f38ba9269bd53b8.png](https://i-blog.csdnimg.cn/blog_migrate/492ddf59382fa2b67f2a58309305e94c.jpeg)
接着,按F12,打开Chrome的开发者工具,选择Network
![9b2eef274b083ad42ca24801dd0e677c.png](https://i-blog.csdnimg.cn/blog_migrate/be2e7cf025626ffbb84f3ec21c854fb8.png)
此时在之前的超链接界面中,点击「选择其他公众号」,输入你需要爬取的公众号(例如中国移动)
![aade09e7125af232e5bc614ca49d43b3.png](https://i-blog.csdnimg.cn/blog_migrate/7564968cc8b3b75346f433928703ccb9.png)
此时之前的Network就会刷新出一些链接,其中以"appmsg"开头的便是我们需要分析的内容
![16ab7cf2297d06423873d0a56447869d.png](https://i-blog.csdnimg.cn/blog_migrate/ea01d5493b13da29e64c8d828a351f28.jpeg)
我们解析请求的URL
https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin=0&count=5&fakeid=MzI1MjU5MjMzNA==&type=9&query=&token=143406284&lang=zh_CN&f=json&ajax=1
它分为三个部分
- https://mp.weixin.qq.com/cgi-bin/appmsg: 请求的基础部分
- ?action=lis