Python:通过接口获取公众号的文章列表(但是开发文档没有这个接口)

📚博客主页:knighthood2001
公众号:认知up吧 (目前正在带领大家一起提升认知,感兴趣可以来围观一下)
🎃知识星球:【认知up吧|成长|副业】介绍
❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更新的动力❤️
🙏笔者水平有限,欢迎各位大佬指点,相互学习进步!

看文档!看文档!看文档!

https://developers.weixin.qq.com/doc/offiaccount/Publish/Get_publication_records.html

在这里插入图片描述

我本来想通过微信公众平台的接口,获取群发的公众号文章链接,但是结果如下:

在这里插入图片描述

本应该返回包含文章链接的内容,但是是个空。


经过多次测试,我放弃了,然后在网上查了一下,说是没有获取群发文章列表的API。
在这里插入图片描述

因此这篇文章,就算是废了。只能用来记录一下,如何看官方文档,然后写例子。


获取access_token

Python:获取微信公众号的access_token
获取公众号的access_token可以看上面这一篇。

这篇文章对获取access_token进行封装了一下,因为你需要判断是否会出现其他错误,因此你需要if去判断。

APPID = "你的APPID"
APPSECRET = "你的APPSECRET"
def get_access_token():
    # 构造请求的URL
    url = f"https://api.weixin.qq.com/cgi-bin/token?grant_type=client_credential&appid={APPID}&secret={APPSECRET}"
    response = requests.get(url)
    return_json = response.json()
    if 'errcode' in return_json:
        if return_json["errcode"] == '40164':
            print("IP白名单未配置:", return_json["errmsg"])
            return None
        else:
            print("获取access_token失败,报错信息:", return_json["errmsg"])
            return None
    else:
        access_token = response.json()["access_token"]
        return access_token

比如下面的第一行,就是这个代码打印的,可以方便大家看没有配置的IP(不需要IP工具去查找本机IP)
在这里插入图片描述

上面这个函数成功运行后,不出其他错误,你就能得到access_token

获取稳定的access_token

获取稳定的access_token,其实反而更加简单。

只需要构造一个请求体。

def get_stable_access_token():
    # 构造请求的URL
    url = "https://api.weixin.qq.com/cgi-bin/stable_token"
    data = {
        "grant_type": "client_credential",
        "appid": APPID,
        "secret": APPSECRET,
        "force_refresh": False
    }
    response = requests.post(url, data=json.dumps(data))
    access_token = response.json()["access_token"]
    print('access_token:', access_token)
    return access_token

获取文章列表

然后看一下微信公众平台开放文档。

在这里插入图片描述

可以看到,需要access_tokenoffsetcount

但是,微信公众平台的API要求指定获取素材的类型。type字段用于告诉微信服务器你想要获取哪种类型的素材。在这个上下文中,news表示你想要获取图文消息列表。

微信公众平台提供了多种类型的素材,包括图文(news)图片(image)语音(voice)视频(video)等。当你调用接口时,你需要明确指定你想要获取的素材类型,这样微信服务器才能返回正确的数据。

access_token是需要放在API里面。

def get_article_list(count=10):
    access_token = get_access_token()
    # access_token = get_stable_access_token()
    print('access_token:', access_token)
    # 构造获取文章列表的URL
    article_url = f"https://api.weixin.qq.com/cgi-bin/material/batchget_material?access_token={access_token}"
    # 构造请求体
    data = {
        "type": "news",
        "offset": 0,
        "count": count
    }
    # 发送POST请求获取文章列表
    response = requests.post(article_url, json=data)
    # response = requests.post(article_url, data=json.dumps(data))
    print(response.json())
    # 解析返回的JSON数据
    # articles = response.json()["item"]
    # return articles

因此,我构造了这样一个函数。

首先就是构造API网址。将access_token加进去。

article_url = f"https://api.weixin.qq.com/cgi-bin/material/batchget_material?access_token={access_token}"

然后构造请求体

data里面就是你需要放的参数,参数对了才可以得到指定的内容。count就是你要获取的文章数量。

然后发送post请求。下面这两种方式都是可以的。

response = requests.post(article_url, json=data)

response = requests.post(article_url, data=json.dumps(data))

json.dumps 是 Python 的 json 模块中的一个函数,用于将 Python 对象转换(或序列化)为 JSON 格式的字符串。这个函数非常有用,当你需要将 Python 数据结构(如字典、列表、元组等)转换为 JSON 格式的文本时,你可以使用它。

全文的代码

import requests
import json
APPID = "wx465ccee8c1ea66f5"
APPSECRET = "b9d387d8ada1e82a69c809b7fc8ea2e7"

# APPID = "你的APPID"
# APPSECRET = "你的APPSECRET"
def get_access_token():
    # 构造请求的URL
    url = f"https://api.weixin.qq.com/cgi-bin/token?grant_type=client_credential&appid={APPID}&secret={APPSECRET}"
    response = requests.get(url)
    return_json = response.json()
    if 'errcode' in return_json:
        if return_json["errcode"] == '40164':
            print("IP白名单未配置:", return_json["errmsg"])
            return None
        else:
            print("获取access_token失败,报错信息:", return_json["errmsg"])
            return None
    else:
        access_token = response.json()["access_token"]
        return access_token

# access_token = "access_token 80_U6eqICBzuXntzzICOHBEQrKe4n4lH2MtMn-69791Kx1fjsQ28V2RkpSIuGrbhA2LKC2iGIAVCHvLE30k8Dli-Q3try69bR0UQihKi7hO_aIG0Q5HRI_kxAZcfOIFITdABAMPA"

def get_article_list(count=10):
    access_token = get_access_token()
    # access_token = get_stable_access_token()
    print('access_token:', access_token)
    # 构造获取文章列表的URL
    article_url = f"https://api.weixin.qq.com/cgi-bin/material/batchget_material?access_token={access_token}"
    # 构造请求体
    data = {
        "type": "news",
        "offset": 0,
        "count": count
    }
    # 发送POST请求获取文章列表
    response = requests.post(article_url, json=data)
    # response = requests.post(article_url, data=json.dumps(data))
    print(response.json())
    # 解析返回的JSON数据
    # articles = response.json()["item"]
    # return articles


def get_stable_access_token():
    """
    获取稳定的access_token

    Args:
        无

    Returns:
        str: 返回稳定的access_token

    """
    # 构造请求的URL
    url = "https://api.weixin.qq.com/cgi-bin/stable_token"
    data = {
        "grant_type": "client_credential",
        "appid": APPID,
        "secret": APPSECRET,
        "force_refresh": False
    }
    response = requests.post(url, data=json.dumps(data))
    access_token = response.json()["access_token"]
    print('access_token:', access_token)
    return access_token
if __name__ == '__main__':
    # get_access_token()
    # 指定公众号名称和要获取的文章数量
    count = 10
    # 获取文章列表
    # articles = get_article_list(count)

    get_stable_access_token()

运行结果如下,就是返回结果不像开发文档里面说的,有相关内容,这里其实根本没有内容。

在这里插入图片描述

总结

本来还想通过接口获取公众号文章链接,但是这种方法行不通了,后续我打算使用selenium进行获取。

### 使用Python实现微信公众号爬虫 为了构建一个能够抓取微信公众号文章的爬虫,可以借鉴已有的开源项目并利用`requests`库来发送HTTP请求以及`BeautifulSoup`或`lxml`解析HTML文档。下面是一个简单的例子展示如何创建这样的爬虫。 #### 准备工作 安装必要的依赖包可以通过pip命令完成: ```bash pip install requests beautifulsoup4 lxml ``` #### 获取目标页面的数据 首先定义函数用于发起网络请求,并处理返回的内容。这里假设已经找到了API接口或者网页URL模式[^1]。 ```python import requests from bs4 import BeautifulSoup def fetch_page(url, params=None): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)', } response = requests.get(url=url, headers=headers, params=params) if response.status_code != 200: raise Exception(f"Failed to load page {url}") return response.text ``` 对于像知乎专栏那样的RESTful API端点,则可以直接传递参数给`params`变量;而对于普通的HTML页面则不需要此操作[^2]。 #### 解析响应内容 接下来编写另一个辅助方法用来提取所需的信息。这取决于具体的目标网站结构,在这里是模拟从微信公众平台获取文章列表[^3]。 ```python def parse_html(html_content): soup = BeautifulSoup(html_content, "lxml") articles = [] # 假设每篇文章都在<li class="article-item">标签内 items = soup.find_all('li', {'class': 'article-item'}) for item in items: title = item.select_one('.title').get_text(strip=True) link = item.select_one('a')['href'] date = item.select_one('.date').get_text(strip=True) article_info = {"Title": title, "Link": link, "Date": date} articles.append(article_info) return articles ``` 请注意实际开发过程中可能需要调整CSS选择器以匹配最新的页面布局变化。 #### 主逻辑流程控制 最后组合上述两个部分形成完整的爬虫程序框架。 ```python if __name__ == "__main__": url = "http://example.com/articles" html_data = fetch_page(url) parsed_articles = parse_html(html_data) for idx, artcle in enumerate(parsed_articles[:5], start=1): # 只打印前五条记录作为示例 print(f"{idx}. [{artcle['Title']}]({artcle['Link']}), Published on: {artcle['Date']}") ``` 这段代码展示了基本的工作原理,但在真实环境中还需要考虑更多因素如异常处理、反爬机制规避等。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

knighthood2001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值