python爬取喜马拉雅音频文件

最新推荐文章于 2024-07-01 17:20:06 发布

mshine0

最新推荐文章于 2024-07-01 17:20:06 发布

阅读量1.4k

点赞数 10

分类专栏： python爬虫文章标签： python 开发语言爬虫

本文链接：https://blog.csdn.net/u013021184/article/details/135730056

版权

本文介绍了一种使用Python爬虫技术从喜马拉雅网站抓取英文儿歌的方法，包括首页数据的分析（获取歌曲ID和名称）、音频地址的获取、以及如何将m4a文件转换为mp3进行存储。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、页面分析

本次案例以爬取喜马拉雅上的英文儿歌为例，网址https://www.ximalaya.com/album/55952392
在这里插入图片描述

1.1首页数据分析

打开F12，查看各个请求的返回结果，发现如下请求能获取到我想要的数据，第一页所有歌曲的ID和歌名。
在这里插入图片描述

获取第一页每首歌的名字与ID的代码如下：

url = 'https://www.ximalaya.com/revision/album/v1/getTracksList?albumId=55952392&pageNum=1&pageSize=30'
headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    }
res = requests.get(url=url, headers=headers)
tracks = res.json()['data']['tracks']
# 歌曲名
title = [i.get('title') for i in tracks]
# 歌曲ID
trackId = [i.get