2025 年可用的Python抓取微信公众号文章方法

jackflit

已于 2025-10-09 20:43:00 修改

阅读量196

点赞数 4

CC 4.0 BY-SA版权

分类专栏： python 微信爬虫文章标签： python 爬虫微信

于 2025-10-09 20:41:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jackflit/article/details/152817199

python 同时被 3 个专栏收录

2 篇文章

订阅专栏

1 篇文章

订阅专栏

1 篇文章

订阅专栏

目的

目的是抓取指定公众号的文章和评论，希望程序能跨平台，尽量不实用依赖 mac 和 win 这种本地库的 python 代码。

方案

这篇文章写作于2025 年

微信已经反爬很多年了，可能的方案如下

❌ 1. 搜狗那套早就不更新了

❌ 2. 直接 request 接口，微信各种认证，一开始就搞不定

❌ 3. 基于 selenium 的各种浏览器自动化，如何拿到http接口呢？

❌ 4. 基于 https 代理，比如 mitmproxy 的方案，微信的文章内容和评论不走 https 了，根本抓不到包（基于 mitmproxy 我确实没看到微信流量，如果有这种方法，欢迎留言告知，微信也行 j@ckflit@替换为 a）

✅ 5. RPA 方案，比如 pyautogui，模拟用户操作，抓取文字，理论上万能，实际也只能这样

✅6. 高级 RPA 方案，基于系统依赖的底层 API，找到窗口，辅助访问等接口，有方案 5 搞不定又必须得再考虑这个，或者确定用某个平台也可以

流程

pg(pyautogui的简称)搜索指定公众号，打开公众号文章列表

列表页根据文章 item 的左上角图像，找到位置，然后判断是否重复，合理，如果合理，则抓取文章页

文章页抓取文章标题，内容，评论，链接（链接可以用于排重，浏览器可以打开，但是只有内容，没有评论，评论只能在微信内部看）

难点

1. 定位位置用locateOnScreen，这个函数，相关参数是基于物理分辨率的，比如 mac，可能物理分辨率是 3000，逻辑分辨率是 1500，这里要注意。比如 mac 下，这个函数的返回值要除以 2，输入的图像是基于物理分辨率的，坐标也是要 X2，请注意系统默认的截图快捷键截取的就是基于物理分辨率的截图，pg 的 screenshot 返回的可能是基于逻辑分辨率的，这块需要先做好测试，理解好。

2. locateOnScreen 的返回值，可能是错的，可能有一点偏差，这种细节要处理，实在不放心，自己手搓一个函数

3. 文章页，评论啥的要兼容各种情况，评论里有多层，需要点开

4. pg 的 scroll，press，hotkey 得仔细测试，可能有各种跟你预想不一样的情况，需要自己摸索

博客等级

码龄23年

25
原创

39
点赞

37
收藏

22
粉丝

关注

私信

热门文章

分类专栏

微信 1篇
爬虫 1篇
水文 6篇
java技术 6篇
C++技术 2篇
Windows客户端 5篇
网页前端 3篇
服务器端 6篇
辅助工具 7篇
游戏
python 2篇

展开全部收起

上一篇：: 安装VC++Redist报错0x80070003的解决办法

最新评论

2025 年可用的Python抓取微信公众号文章方法
jackflit: 咨询了同事，微信是自己封装的 tls，mmtls 但是核心数据可能是应用层加密+mmtls 加密+http，破解不擅长，系统工程，不是随手玩玩的。另外，autojsx，gewe，集蜂云。另外视频号，没找到浏览器能打开视频号的链接，网上文章有的，都不好用
python这个老顽固
jackflit: 时隔多年，用 python 不要最新，不要最新。 python 各个包的版本冲突真严重。十年没写程序了，目前老老实实 python3.8 到 3.11 吧。3.11 后面跟很多包都不兼容，我看今天出 3.14 了，关于 GIL 又是大更新，老老实实用我的 3.11 吧
安装VC++Redist报错0x80070003的解决办法
jackflit: 最大的惊喜是双人同行，竟然适配了我的老掉牙小霸王手柄。这些年不做windows编程了，对新版本windows机制没有以前理解了，估计现在做windows开发的也少之又少了。其实看0x80070003里提到的错误日志，日志里最后就是关于package cache的，手头也没有windows api hook的工具去分析最后可能失败。还好csdn还是有靠谱的程序员。
支持ajax的爬虫
weixin_45876980: 第一条命令就出现错误了: 找不到或无法加载主类 webdriver.chrome.driver=chromedriver.exe要怎么搞
支持ajax的爬虫
weixin_45876980: 博主，能发一下crawljax官网地址吗找不到

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。