python爬取mp3音乐_python selenium爬取音频

大家好,我是chilly,下面给大家分享本人爬取酷狗音乐top100的音频的案例

好,一起来看看需求

AAffA0nNPuCLAAAAAElFTkSuQmCC

我们想要爬取top100的歌曲信息以及歌曲所在的url。

那么确定好需求后,我们就准备开始我们的步伐。在如上的页面F12,是没有我们所想要的MP3源地址的,所以我们点开任一首歌。打开F12开发者工具,页面如下

AAffA0nNPuCLAAAAAElFTkSuQmCC

AAffA0nNPuCLAAAAAElFTkSuQmCC

可以看到,歌曲是经过 Ajax 异步加载获取的,而请求参数是加密的,其中的id在前一个页面可以获取,并且这里可以不提供第二个参数也可以获取该响应,主要的hash后的参数。在看了大神们的解码分析后,望而却步,但奇迹般发现

AAffA0nNPuCLAAAAAElFTkSuQmCC

当前页面的url是含有hash参数的,当即想到用 selenium+pantomJs 路线来获取当前页面url,用当前页面的url中的hash参数,来构造请求,获取我们想要的json数据,该数据中包含我们需要的歌曲的具体信息

给大家看看selenium部分的代码

AAffA0nNPuCLAAAAAElFTkSuQmCC

依次点击每首歌曲,然后获取url,返回前一个页面,继续进入下一个歌曲的界面,获取url,最后将结果保存在文件中。

文件内容如下

AAffA0nNPuCLAAAAAElFTkSuQmCC

到了这里我们已经成功一大半了,因为我们已经拿到了每首歌曲对应的hash参数,我们只需要对这个参数简单的构造

AAffA0nNPuCLAAAAAElFTkSuQmCC

然后对这些url,向酷狗服务器发起访问请求,酷狗将数据都发送给了我们,经过json解析后,我们将结构化的数据保存在kugou.txt中

AAffA0nNPuCLAAAAAElFTkSuQmCC

当然,大家可以存储数据库,excel。

总结: 整个过程,熟悉了 selenium + pantomJs 的使用 ,整个案例中,最重要的是,如何获取url,能够让酷狗服务器乖乖地将包含歌曲信息的 json 数据,回传给我们,而这篇教程,就是采用 selenium来获取hash参数,当然大家也可以进行解密。大家可以自行尝试,这里给大家推荐 大神详解网易音频爬虫加密参数的破解 打开链接

感谢大家。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值