一、页面分析
本次案例以爬取喜马拉雅上的英文儿歌为例,网址https://www.ximalaya.com/album/55952392
1.1首页数据分析
打开F12,查看各个请求的返回结果,发现如下请求能获取到我想要的数据,第一页所有歌曲的ID和歌名。
获取第一页每首歌的名字与ID的代码如下:
url = 'https://www.ximalaya.com/revision/album/v1/getTracksList?albumId=55952392&pageNum=1&pageSize=30'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
}
res = requests.get(url=url, headers=headers)
tracks = res.json()['data']['tracks']
# 歌曲名
title = [i.get('title') for i in tracks]
# 歌曲ID
trackId = [i.get