今日头条收藏以异步加载方式加载,可用以下两种方式分析,达到以下效果:
第一种:
将收藏网页拉直最底部,直到不产生新的收藏信息,将网页下载,另存到本地,形成新的htm文件,这时可以用分析静态网页的方式进行分析,得到标题和对应网址,在此不赘述。
第二种:
用火狐打开今日头条收藏,点击F12,点击网络,点击xhr,下拉收藏页,得到数条反馈网址,在新的页面打开网址,观察页面内容(也可在每条反馈的响应行观察),发现需求"display_url"网址和"title"标题,每页总共20条,此页既是所求网页,现在需要构建所有此类网页。
比较每条xhr反馈网址,发现max_repin_time值不同,将max_repin_time代入网址搜寻,发现最后一条max_repin_time对应值是下一次出现的max_repin_time值,获取所欲max_repin_time值,代码如下:
import requests
from bs4 import BeautifulSoup
import json
import openpyxl
#第一个max_repin_time
a=0
x=[]
#大约有不到2000条,每页有20个,重复100次
for i in range(100):
url = r'https://www.toutiao.com/c/user/favourite/?page_type=2&user_id=x

本文介绍了如何利用Python爬取今日头条的收藏数据。通过分析xhr反馈网址,获取max_repin_time值,构建请求URL并模拟浏览器头进行访问,解析JSON响应获取"display_url"和"title",最终将数据导出到Excel文件。
最低0.47元/天 解锁文章
1258

被折叠的 条评论
为什么被折叠?



