hello,大家好,我是wangzirui32,今天我们来学习如何批量下载喜马拉雅音频。
开始学习吧!
1. 解析网站
1.1 获取音频地址
在喜马拉雅网站上,随便点开一个音频,打开“开发者工具”,再点击播放按钮,可以看到出现了多个请求:
经过排查,发现可疑url:
查看它的响应信息,发现音频地址就在里面:
接下来,解析这个返回音频地址的url:
https://www.ximalaya.com/revision/play/v1/audio?id=348451879&ptype=1
发现url中的id参数就决定了返回的音频地址,而id参数是音频的id号。
1.2 解析专栏网页
我们已经知道了获取音频url的网址,接下来要获取一个专栏内的音频id和名称,打开一个专栏,发现:
所有的音频存放在class为1F_的li标签中,再来解析li标签:
在li标签中的第一个a标签存储着我们所有需要的数据,妙~啊!
1.3 整理亿下思路
思路:
- 获取专栏内的li标签
- 获取li标签里的第一个a标签
- 读取a标签的title和href属性
- 将href解析成音频id
- 将id带入url请求音频源地址
- 提取音频源地址
- 请求音频源地址
- 保存音频(文件名为a的title属性)
思路整理完了,开始编写代码。
2. 编写爬取代码
代码奉上——