Python|Mitmproxy爬取公众号文章的阅读信息

欢迎点击「算法与编程之美」↑关注我们!

本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章。

欢迎加入团队圈子!与作者面对面!直接点击!

前言

最近小编看了一篇mitmproxy爬取微信公众号文章的链接的博客,由于需求,小编将其代码稍作修改,让其爬取公众号文章的阅读信息。本博客代码来自:

https://blog.csdn.net/pdcfighting/article/details/107649987 (本文中称为参考博客)。

 

获取手机端证书

参考博客的介绍方法:将手机端的代理ip设置和pc端ip地址一致,代理端口号设置为:8080;然后手机端浏览器访问mitm.im进行下载证书。照此方法不过我的手机(小米手机)并不会出现证书下载界面,而会出现另一个界面;

再参考了另外几篇博客后,我选择了一种解决方案。

解决方案:找到你所下载好的MitmProxy安装文件(如下图),然后双击mitmproxy-ca.p12文件进行pc端证书导入,其中涉及到几处导入选项,具体操作参考博客即可:

https://www.cnblogs.com/pfeiliu/p/12306037.html

然后将其中的mitmproxy-ca-cert.pem文件发送到手机,小米手机一般不能直接识别pem文件(本人小米手机);此时我们打开:设置-WLAN-高级设置-安装证书-找到接收的mitmproxy-ca-cert.pem文件;证书名称为mitmproxy即可。


此时我们就将pc以及手机端的证书安装问题解决完毕了。

将手机端的代理IP设为pc端的IP地址

当我们安装好证书后,就可以进行如下操作。首先在pc端的开始栏输入cmd,然后输入控制命令ipconfig,查看pc端的IP地址,如下图;


然后在手机端的所连接的wifi选项中打开代理ip手动设置,用户名填入IPv4地址,端口一般设为8080即可。

爬取文章阅读信息

完成上述操作后,我们就进行py代码的如下操作。

代码修改操作

在参考博客中我们只需要修改wxCrawler.py这个py代码即可,其余代码均可不必修改,因为该代码是爬取文章的关键。我们将wxCrawler.py代码的爬取链接改为爬取到的文章的阅读信息即可;wxCrawler.py在for循环处导入参考博客text_01.py代码类传入相应的参数,(参考博客为articles.py代码);只做这一处修改即可完成爬取公众号文章阅读信息。

text_01.py代码

修改后的wxCrawler.py代码

运行结果示例:

以该公众号为例的测试结果图为;

注意事项

事项1:将所有的py代码放入同一个文件夹。

事项2:阅读该博客前,请先阅读参考博客和关于参考博客难点介绍的那篇博客。

事项3:尽量用pycharm打开文件夹运行py代码。

事项4:参考博客中的代码存在代码缩进,符号等问题,在上一篇博客我已经将其修改完毕,只需要将wxCrawler.py代码改为修改后的代码然后加入text_01.py代码即可。

总结

该博客主要以参考博客中的wxCrawler.py代码做修改,使爬取的结果发生改变,从而能够爬取公众号文章的阅读信息,希望能对读者有所帮助。

 

END

实习编辑   |   王文星

责       编   |   W Z  Y

 where2go 团队


   

微信号:算法与编程之美          

长按识别二维码关注我们!

温馨提示:点击页面右下角“写留言”发表评论,期待您的参与!期待您的转发!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

算法与编程之美

欢迎关注『算法与编程之美』

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值