今日头条收藏以异步加载方式加载,可用以下两种方式分析,达到以下效果:
第一种:
将收藏网页拉直最底部,直到不产生新的收藏信息,将网页下载,另存到本地,形成新的htm文件,这时可以用分析静态网页的方式进行分析,得到标题和对应网址,在此不赘述。
第二种:
用火狐打开今日头条收藏,点击F12,点击网络,点击xhr,下拉收藏页,得到数条反馈网址,在新的页面打开网址,观察页面内容(也可在每条反馈的响应行观察),发现需求"display_url"网址和"title"标题,每页总共20条,此页既是所求网页,现在需要构建所有此类网页。
比较每条xhr反馈网址,发现max_repin_time值不同,将max_repin_time代入网址搜寻,发现最后一条max_repin_time对应值是下一次出现的max_repin_time值,获取所欲max_repin_time值,代码如下:
import requests
from bs4 import BeautifulSoup
import json
import openpyxl
#第一个max_repin_time
a=0
x=[]
#大约有不到2000条,每页有20个,重复100次
for i in range(100):
url = r'https://www.toutiao.com/