【python爬虫】网易云歌单下载（scrapy+selenium）

最新推荐文章于 2024-04-19 09:51:07 发布

弱楓

最新推荐文章于 2024-04-19 09:51:07 发布

阅读量1.3k

点赞数 1

分类专栏：爬虫文章标签： scrapy selenium python 网易云音乐

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MLXY123/article/details/84875528

版权

本文介绍如何使用scrapy框架结合selenium下载网易云音乐的歌单。通过分析网页结构，发现歌单信息位于iframe内，通过selenium切换frame获取完整信息。遇到的难点包括动态加载、iframe内容抓取以及AES加密的歌曲链接解密。借助GitHub上的资源解决解密问题，最后利用requests下载音乐。

摘要由CSDN通过智能技术生成

我又滚回来更新了，这一次我们的目标是网易云音乐，想要通过输入歌单的链接，然后把整个歌单的歌曲都下载下来，说做就做，看看这一次有会遇见怎样的问题把。
需要注意的点：

这一次使用的框架仍然是scrapy，不同于上个框架的是这一回加上了selenium，我是蛮不想借助这个的，但是让工具发挥他最大的用处，这才是我们该做的
VIP才能下载的音乐依然无法下载，现在还没有那个实力，只能下载歌单中不是vip的音乐
本文用于技术交流，如果侵犯版权立即删除，任何人不能用于商业用途
好的，那我们就开始吧，一开始我们先来分析一下网易云的歌单
这是这一次要分析的网址： https://music.163.com/#/playlist?id=61650863 ，顺便卖一波安利，这个歌单蛮不错的，喜欢纯音乐的朋友可以听听看。

首先我们要做的是获取这个歌单所有的歌曲的链接和名字，一开始觉得应该没有什么难度，
就算歌单是动态加载的，找起来应该也没有什么难度，但是事实是对现在的我确实是蛮难的。
右键网页源代码，搜索Rain after Summer（歌单第一首歌）发现果然是没有的

接下来便是在f12中查找，确实发现了歌单的信息，本来接下来就是

response = requests.get(url,headers=DEFAULT_REQUEST_HEADERS)

但即使发所有的request headers都加上了，这部分内容页面没能显示出来，要是有朋友知道这是怎么回事，希望可以多多指教。
但是我们是不能在一颗树上吊死的，既然这个方法行不通，那么就使别的方法，这次我是使用了selenium，但是用这个的时候也遇见一个坑了，在使用selenium之后本来以为所有问题都会迎刃而解的，但是发现仍然搜索不到任何有关歌单的信息，就纠结测试了许久之后，终于发现了问题的所在，一切都源于他
在这里插入图片描述
这是一个iframe，歌单所有的消息都在这个里面，但是selenium是没有办法自动加载这个里面的内容的，这就导致了我们怎样都看不见歌单的消息。成功得到歌单信息之后，那么就可以开始我们的下载大业了，下面就开始说代码了，里面遇见的问题再一边分析。

使用scrapy进行爬虫，scrapy框架目录结构如下：
在这里插入图片描述
在使用命令行创建scrapy之后，首先是在setting.py中将机器人协议改为false࿰

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

弱楓 CSDN认证博客专家 CSDN认证企业博客

码龄7年

7: 原创

40万+: 周排名

205万+: 总排名

2万+: 访问

: 等级

315: 积分

17: 粉丝

27: 获赞

7: 评论

104: 收藏

私信

关注

热门文章

分类专栏

图像领域 1篇
爬虫 3篇
python 1篇
代理IP 1篇
豌豆代理 1篇
redis 1篇
java 1篇

最新评论

【python爬虫】在scrapy中利用代理IP（爬取BOSS直聘网）
S_wmz: 卧槽救了我的老命了这篇文章
【python爬虫】动漫之家漫画下载（scrapy）
Inari_lzu: 很可惜，现在全都换成ajax加载了
【python爬虫】动漫之家漫画下载（scrapy）
Inari_lzu 回复 Harvey_fu: 你看看是不是同时运行了多个爬虫
【python爬虫】动漫之家漫画下载（scrapy）
Harvey_fu: [code=python] 2019-09-21 01:13:25 [scrapy.utils.log] INFO: Scrapy 1.7.3 started (bot: dmzj_scrapy) 2019-09-21 01:13:25 [scrapy.utils.log] INFO: Versions: lxml 4.4.1.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.7.0, Python 3.7.4 (tags/v3.7.4:e09359112e, Jul 8 2019, 19:29:22) [MSC v.1916 32 bit (Intel)], pyOpenSSL 19.0.0 (OpenSSL 1.1.1c 28 May 2019), cryptography 2.7, Platform Windows-10-10.0.18362-SP0 Usage ===== scrapy crawl [options] <spider> dmzj_start.py: error: running 'scrapy crawl' with more than one spider is no longer supported [/code] 报错如上，请问大神如何修改？
【python爬虫】在scrapy中利用代理IP（爬取BOSS直聘网）
weixin_43351935: 大佬，，这篇文章写得很好。。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。