微信实现抓取微信公众号文章

DeepM

已于 2025-03-10 00:48:31 修改

阅读量2.5k

点赞数 18

文章标签：微信微信公众平台

于 2025-03-09 16:07:57 首次发布

本文链接：https://blog.csdn.net/weixin_37206602/article/details/146133810

版权

我是deepMan，毕业于985高校，拥有丰富的大厂工作经验，现任独立开发者公司负责人。
长期专注于技术创新，精通人工智能和区块链技术，具备丰富的项目开发和管理经验，
擅长从0到1构建高质量技术解决方案，致力于推动技术在实际场景中的应用落地。
获取源码与答疑解惑,添加小助手微信，进行业交流群，一起抱团，开拓新赛道，获取新财富机会。

关注更多有意思的内容访问历史文章：答疑与更多源码

方案 1：使用现成的开源工具（无需编程）

如果你不想自己写代码，可以直接使用一些开源工具，这些工具通常基于微信客户端或网页端，操作简单，适合初学者。

推荐工具：WeChat-Article-Exporter

简介：一款在线批量导出微信公众号文章的工具，支持内嵌音视频导出，能100%还原文章样式，且无需复杂环境搭建。
操作步骤：
1. 访问 GitHub 项目页面：https://github.com/githcc/wechat-article-exporter
2. 下载适用于 Windows 的预编译版本，或按照说明部署到本地。
3. 登录你的微信账号（PC 版微信），通过工具抓取关注的公众号文章。
4. 选择导出格式（HTML/MD/PDF/DOCX）并保存。
优点：
- 无需编程，直接使用。
- 支持图片、音视频、评论等完整内容。
- 可私有部署，安全性较高。
缺点：
- 需要手动登录微信，抓取范围限于你关注的公众号。
- 不支持实时监控新文章。

其他类似工具：

wechatDownload（https://github.com/abskoop/wechatDownload）：功能类似，支持下载图片、音频、视频及评论。

方案 2：基于 PC 微信客户端 Hook（需要编程）

如果你有一定编程能力，可以通过 Hook PC 版微信客户端来抓取文章。这种方法适用于实时监控和批量抓取。

实现思路：

安装 PC 微信：确保 Windows 上已安装最新版微信客户端。
使用 Hook 工具：通过逆向工程获取微信内部数据（如文章列表、URL 等）。
抓取流程：
- 利用工具（如 Frida 或 Cheat Engine）拦截微信客户端的网络请求。
- 获取公众号文章的元数据（标题、链接等）及内容。
- 保存到本地或数据库。
推荐库与工具：
- Python + Frida：Frida 是一个动态注入工具，可用于 Hook 微信客户端的 API。
- mitmproxy：拦截微信客户端的 HTTPS 请求，提取关键参数（如 uin、key 等）。

示例代码（Python + Frida）：

import frida
import sys

def on_message(message, data):
    if message['type'] == 'send':
        print(f"[*] {message['payload']}")

# 附加到微信进程
process = frida.get_usb_device().attach("WeChat.exe")
script = process.create_script("""
    // Hook 微信内部函数，示例代码需根据实际情况调整
    Interceptor.attach(Module.findExportByName("WeChatWin.dll", "SomeFunction"), {
        onEnter: function(args) {
            console.log("Function called with args: ", args[0].readUtf8String());
        }
    });
""")
script.on('message', on_message)
script.load()
sys.stdin.read()

说明：具体 Hook 点需要通过逆向分析微信客户端获取，涉及一定的技术门槛。
优点：
- 实时性强，可监控新文章。
- 不受接口限制。
缺点：
- 技术难度高，需逆向工程知识。
- 可能违反微信使用条款，账号有被封风险。

方案 3：通过微信公众平台接口（需要公众号权限）

如果你有自己的微信公众号，可以通过登录公众平台，利用 Python 等工具模拟登录并抓取。

实现步骤：

准备环境：
- 安装 Python 和 Selenium（用于模拟浏览器操作）。
- 下载 ChromeDriver（与你使用的 Chrome 版本匹配）。
登录公众平台：
- 使用 Selenium 打开 https://mp.weixin.qq.com/，扫码登录。
抓取文章：
- 定位目标公众号，提取文章列表。
- 通过 requests 获取文章内容。

示例代码：

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 启动 Chrome
driver = webdriver.Chrome()
driver.get("https://mp.weixin.qq.com/")

# 等待扫码登录
print("请扫码登录")
time.sleep(20)  # 手动扫码时间

# 搜索目标公众号（需手动输入公众号名称）
driver.find_element(By.XPATH, "//input[@id='search']").send_keys("目标公众号")
driver.find_element(By.XPATH, "//button[@id='search_btn']").click()
time.sleep(5)

# 获取文章列表
articles = driver.find_elements(By.XPATH, "//div[@class='weui_media_box appmsg']")
for article in articles:
    title = article.find_element(By.XPATH, ".//h4").text
    link = article.find_element(By.XPATH, ".//a").get_attribute("href")
    print(f"标题: {title}, 链接: {link}")

driver.quit()

优点：
- 合法合规（基于官方平台）。
- 可抓取历史文章。
缺点：
- 需要手动登录，自动化程度较低。
- 只能抓取有限范围的文章（依赖搜索结果）。

方案 4：借助搜狗微信搜索（简单但有限）

利用搜狗微信（https://weixin.sogou.com/）搜索公众号文章，抓取公开内容。

实现步骤：

用 Python 的 requests 库访问搜狗微信搜索页面。
输入公众号名称，获取文章链接。
解析文章页面，提取内容。

示例代码：

import requests
from bs4 import BeautifulSoup

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/91.0.4472.124"
}
url = "https://weixin.sogou.com/weixin?type=1&s_from=input&query=目标公众号"
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")

# 获取文章列表
articles = soup.select("div.txt-box")
for article in articles:
    title = article.select_one("h3").text.strip()
    link = article.select_one("a")["href"]
    print(f"标题: {title}, 链接: {link}")