网易云自动化爬虫方案，24小时爬取10万首音乐信息，30万条用户信息，100万个热评

p697

于 2020-02-26 15:11:09 发布

阅读量4.3w

点赞数 7

分类专栏：爬虫 python 网易云

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44812259/article/details/104513122

版权

高效自动化网易云爬虫系统，自动寻找未爬取的歌曲、用户进行数据爬取并无限循环，理论上只要时间够就能爬取几乎所有网易云的歌曲和用户信息。笔者用大约24小时的时间就获取了如题的战果。

先展示一下成果：
在这里插入图片描述
music.csv存储每首歌的歌曲id、歌名、歌手、专辑、专辑图片url和评论数量信息，部分截图：

comment.csv存储每首歌的热评，包括评论所属歌曲id、评论用户id、评论获赞数、评论内容和评论时间信息。部分截图：
在这里插入图片描述
user.csv存储用户信息，包括用户id、昵称、等级、vip类型、生日、所在地区、粉丝数量、头像url等信息。部分截图：

程序设计思路

在开始之前，先隆重介绍一个python库：cloudmusic，这个库可以让网易云爬虫变得十分简单，非常适合大规模爬虫系统的设计，可以节省很多很多代码。官网：http://cloudmusic.cool/
github：https://github.com/p697/cloudmusic

我的思考流程大约是这样：

网易云的的每首歌都有自己独立的id，而只要获得了歌曲id就可以通过网易的各种api接口获取歌曲的相关数据。那么如何获取歌曲id就成为了关键。

假如我们只需要爬单个歌曲的信息，就用 Get Lucky 这首歌为例。首先我们去网易云官网找到Get Lucky这首歌的歌曲id，再借助python的cloudmusic库，只要这么写即可：

import cloudmusic

music = cloudmusic.getMusic(26349642)
# 不会从网易云官网获取某首歌的id，请自行百度         
print("歌曲名称：{}".format(music.name))
print("歌手：{}".format(music.artist))

ccount = music.getCommentsCount()
print("评论数量：{}".format(ccount

最低0.47元/天解锁文章

博客等级

码龄6年

5
原创

18
点赞

77
收藏

12
粉丝

关注

私信

热门文章

分类专栏

前端 2篇
爬虫 3篇
网易云 3篇
python 3篇

展开全部收起

最新评论

python库cloudmusic: 网易云爬虫解决方案，轻松获取你想要的数据。
m0_63166913: dirs设置不管用，还是保存到cloudmusic文件夹
python库cloudmusic: 网易云爬虫解决方案，轻松获取你想要的数据。
种田耕地: 你好你这问题解决了吗？我也出现了这种问题
python库cloudmusic: 网易云爬虫解决方案，轻松获取你想要的数据。
weixin_52396841: 前脚可以，后脚就不行了，然后过一会又可以了
最简单实用的网易云爬虫！cloudmusic库带你起飞，歌曲、用户、评论信手捏来
amazing_ccc: 大佬求助！我在使用cloudmusic.getMusic（）的时候发现总会有musicInfo = api.get_song_detail(dict(ID = ids))['songs'] KeyError: 'songs'报错，但是我是完全copy的获取一首歌的热评的代码，并且一天之前还没有这个问题存在，这个是报错信息，请问该怎么办[code=python] Traceback (most recent call last): File "C:/Users/1/Desktop/python大作业/数据可视化.py", line 4, in <module> music = cloudmusic.getMusic(1347630432) File "C:\Users\1\Desktop\python大作业\venv\lib\site-packages\cloudmusic\cloudmusic.py", line 6, in getMusic return session.request("song", para) File "C:\Users\1\Desktop\python大作业\venv\lib\site-packages\cloudmusic\sessions.py", line 44, in request return musicObj.createObj(ids, self.level) File "C:\Users\1\Desktop\python大作业\venv\lib\site-packages\cloudmusic\musicObj.py", line 12, in createObj musicInfo = api.get_song_detail(dict(ID = ids))['songs'] KeyError: 'songs' [/code]
python库cloudmusic: 网易云爬虫解决方案，轻松获取你想要的数据。
amazing_ccc: 大佬求助！我在使用cloudmusic.getMusic（）的时候发现总会有musicInfo = api.get_song_detail(dict(ID = ids))['songs'] KeyError: 'songs'报错，但是我是完全copy的获取一首歌的热评的代码，并且一天之前还没有这个问题存在，这个是报错信息，请问该怎么办 [code=python] Traceback (most recent call last): File "C:/Users/1/Desktop/python大作业/数据可视化.py", line 4, in <module> music = cloudmusic.getMusic(1347630432) File "C:\Users\1\Desktop\python大作业\venv\lib\site-packages\cloudmusic\cloudmusic.py", line 6, in getMusic return session.request("song", para) File "C:\Users\1\Desktop\python大作业\venv\lib\site-packages\cloudmusic\sessions.py", line 44, in request return musicObj.createObj(ids, self.level) File "C:\Users\1\Desktop\python大作业\venv\lib\site-packages\cloudmusic\musicObj.py", line 12, in createObj musicInfo = api.get_song_detail(dict(ID = ids))['songs'] KeyError: 'songs' [/code]

大家在看

最新文章

目录

展开全部

收起

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。