Python爬取某音乐网站内容

任务1,爬取网页歌曲信息

目标url:

https://www.kugou.com/yy/html/search.html#searchType=song&searchKeyWord=%E5%91%A8%E6%B7%B1

目标接口:

https://complexsearch.kugou.com/v2/search/song

难度:简单

使用的加密方法:md5

步骤:

  1. 尝试了 signature,dfid等值,都没有搜出来

  2. 通过搜索路径名search/song定位到一个地方,直接打断点,发现此时参数op已经包含了一些数据,但是没有signature
    在这里插入图片描述

  3. 再执行一下,到下面执行callback时,又有了signature,就开始从堆栈往回调
    在这里插入图片描述

  4. 往回调,看看哪里生成的signature
    在这里插入图片描述

  5. f这里,发现有signature值,不管是不是,先加上断点
    在这里插入图片描述

  6. 再往回找一下,c没有发现有价值的东西;再回一下,就发现回来了。那么signature一定是f这里生成的
    在这里插入图片描述
    在这里插入图片描述

  7. signature这里,是一串字符串执行d()函数,看起来像md5,试了一下,果然是md5,现在目标就是找到这串字符串了。
    在这里插入图片描述

  8. 值得注意的时,这个地方不止我们目标接口会调用,其他接口也会调用,需要尤其注意这个字符串的值,是我们传入的参数才对
    在这里插入图片描述

  9. 仔细比对参数,就是我们的参数,按字母排序传入,然后前后都加入一个u
    在这里插入图片描述

  10. 开始写python,拼接参数,获取md5加密的signature值。发送请求获取结果
    在这里插入图片描述

ps: 最开始我找错位置了,还去找了一下mid,uuid这些值的来源,其实参数中已经带了的。

直接定位找s的值,打断点,刷新浏览器
在这里插入图片描述
在这里插入图片描述

点击进入函数
在这里插入图片描述
简单阅读一下逻辑

getKgMid: function() {
            var e = d.Cookie.read("kg_mid");
            if (navigator.cookieEnabled) {
                if (d.IsEmpty(e)) {
                    var n = d.Guid()
                      , e = d.Md5(n);
                    try {
                        d.Cookie.write("kg_mid", d.Md5(n), 864e6, "/", "kugou.com")
                    } catch (e) {}
                }
            } else {
                ...
                e = d.Md5(t + i + r + o + a + n)
            }
            return e
        },

这里,就是取cookie的kg_mid值,作为返回。如果没有cookie,通过d.Md5(n)生成"kg_mid"这个cookie值

        Guid: function() {
            function e() {
                return (65536 * (1 + Math.random()) | 0).toString(16).substring(1)
            }
            return e() + e() + "-" + e() + "-" + e() + "-" + e() + "-" + e() + e() + e()
        }

任务2:下载页面中的每一首歌

  1. 点击播放,发现新打开了一个页面
    在这里插入图片描述

  2. 在新页面,重新打开控制台,刷新,找到了mp3资源文件
    在这里插入图片描述

  3. 查看文件链接,对比一下前面请求有没有这个链接,找到了接口 https://wwwapi.kugou.com/play/songinfo ,这个接口的返回数据包含了歌曲的链接
    在这里插入图片描述

  4. 查看请求参数,有一个encode_album_audio_id值,需要找找
    在这里插入图片描述

  5. 猜测在之前的页面数据中会有,先去看看,果然在之前的网页找到了这个值。
    在这里插入图片描述

  6. 那么下一步就提取所需要的EMixSongID 值,然后访问请求https://wwwapi.kugou.com/play/songinfo 来获取下载mp3地址

  7. 值得注意的是返回数据不是标准的json格式,需要去掉首位一些内容
    在这里插入图片描述

最后结果:
在这里插入图片描述

在这里插入图片描述

说明

本文章完全用于技术学习,如有问题请联系本人进行删除。
ps:有需要源码的可以找我要。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值