python 头条号_python爬取今日头条收藏目录

本文介绍了如何利用Python爬取今日头条的收藏数据。通过分析xhr反馈网址,获取max_repin_time值,构建请求URL并模拟浏览器头进行访问,解析JSON响应获取"display_url"和"title",最终将数据导出到Excel文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今日头条收藏以异步加载方式加载,可用以下两种方式分析,达到以下效果:

第一种:

将收藏网页拉直最底部,直到不产生新的收藏信息,将网页下载,另存到本地,形成新的htm文件,这时可以用分析静态网页的方式进行分析,得到标题和对应网址,在此不赘述。

第二种:

用火狐打开今日头条收藏,点击F12,点击网络,点击xhr,下拉收藏页,得到数条反馈网址,在新的页面打开网址,观察页面内容(也可在每条反馈的响应行观察),发现需求"display_url"网址和"title"标题,每页总共20条,此页既是所求网页,现在需要构建所有此类网页。

比较每条xhr反馈网址,发现max_repin_time值不同,将max_repin_time代入网址搜寻,发现最后一条max_repin_time对应值是下一次出现的max_repin_time值,获取所欲max_repin_time值,代码如下:

import requests

from bs4 import BeautifulSoup

import json

import openpyxl

#第一个max_repin_time

a=0

x=[]

#大约有不到2000条,每页有20个,重复100次

for i in range(100):

url = r'https://www.toutiao.com/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值