前一段时间在廖雪峰老师的博客上跟着学了一遍python3,决定试着写一个简单的爬虫程序。工作中有同事问我喜马拉雅上的音频怎么下载,我都是让他们去到浏览区缓存文件夹里去找,改下后缀为mp3就可以播放了,这次写这个爬虫程序其实是为了解决上面的问题,给一个喜马拉雅上的专辑链接,可以把专辑里的音频全部下载到本地。
以前做过音箱的嵌入式网络开发,当时用的豆瓣电台,直接请求某个歌曲,返回的html页面中直接有音频源的地址,再去下载就ok了,但是喜马拉雅的专辑页面的html中除了歌曲id,看不到下载链接,为了找下载链接花了些功夫,下面讲下如何搞到下载链接。
例如我们要下载薛之谦的一个专辑:http://www.ximalaya.com/15794559/album/289316
在浏览器中查看该页面源码,并没有歌曲的下载链接,只有专辑中歌曲的sound id:
<li sound_id="25890774" class="">
<div class="miniPlayer3">
<a class="playBtn"></a>
<a class="title" href="/15794559/sound/25890774" hashlink title=