从零开始做歌词生成器 - 0 - 抓取网易云3万首歌词

最新推荐文章于 2024-01-11 19:59:06 发布

I_Array

最新推荐文章于 2024-01-11 19:59:06 发布

阅读量2.5w

点赞数 3

分类专栏：深度学习文章标签： NLP Deep Learning Seq2Seq

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011439796/article/details/79074989

版权

本文介绍了从零开始构建歌词生成器的第一步——抓取网易云音乐3万首歌词的过程。通过分析抓取流程，作者详细讲解了如何获取歌手ID，进而抓取专辑和歌曲ID，最终获得歌词。使用Python的requests和BeautifulSoup库，实现了简洁高效的抓取代码。数据抓取完成后，作者分享了抓取的数据量以及清洗和分析的预览。完整代码和抓取数据可在GitHub repo找到。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随着近几年深度学习的发展，歌词生成器逐渐变为一个有趣而热门的研究点。这篇和接下来的几篇文章，将从零开始，记录数据的抓取、清洗与分析，到歌词生成模型的构建、训练与分析过程。
要做歌词生成器，首先得有丰富的数据。花了点时间在网易云音乐网页版上面摸索，最后找到了几个页面，几个API，终于把一整套的流程整理了出来。

转载请注明出处：从零开始做歌词生成器 - 0 - 抓取网易云3万首歌词

抓取流程分析

首先是这个页面：网易云音乐

这里写图片描述

基本上把热门的歌手都涵盖了，如果觉得不满足，还可以点左边的分栏，能找到更多的歌手。
接下来，以周董为例，点击进入周董的页面：周杰伦 - 网易云

这里写图片描述

周董页面的链接为：

http://music.163.com/#/artist?id=6452

每个歌手都有唯一的id，使用这个id就能找到歌手的页面。不过如果只抓这个链接的话，我们只能抓取到50首歌。点击所有专辑，发现每页列出了12张专辑。专辑页面的链接如下：

http://music.163.com/#/artist/album?id=6452

可以看到，参数依然是歌手的id。

这里写图片描述

为了不处理分页，可以再传一个limit参数：

http://music.163.com/#/artist/album?id=6452&limit=100

这样，所有的专辑都在一个页面显示。再点击进入一张专辑：

这里写图片描述

专辑页面链接为：

http://music.163.com

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。