从零开始做歌词生成器 - 0 - 抓取网易云3万首歌词

本文介绍了从零开始构建歌词生成器的第一步——抓取网易云音乐3万首歌词的过程。通过分析抓取流程,作者详细讲解了如何获取歌手ID,进而抓取专辑和歌曲ID,最终获得歌词。使用Python的requests和BeautifulSoup库,实现了简洁高效的抓取代码。数据抓取完成后,作者分享了抓取的数据量以及清洗和分析的预览。完整代码和抓取数据可在GitHub repo找到。
摘要由CSDN通过智能技术生成

随着近几年深度学习的发展,歌词生成器逐渐变为一个有趣而热门的研究点。这篇和接下来的几篇文章,将从零开始,记录数据的抓取、清洗与分析,到歌词生成模型的构建、训练与分析过程。
要做歌词生成器,首先得有丰富的数据。花了点时间在网易云音乐网页版上面摸索,最后找到了几个页面,几个API,终于把一整套的流程整理了出来。

转载请注明出处:从零开始做歌词生成器 - 0 - 抓取网易云3万首歌词

抓取流程分析

首先是这个页面:网易云音乐

这里写图片描述

基本上把热门的歌手都涵盖了,如果觉得不满足,还可以点左边的分栏,能找到更多的歌手。
接下来,以周董为例,点击进入周董的页面:周杰伦 - 网易云

这里写图片描述

周董页面的链接为:

http://music.163.com/#/artist?id=6452

每个歌手都有唯一的id,使用这个id就能找到歌手的页面。不过如果只抓这个链接的话,我们只能抓取到50首歌。点击所有专辑,发现每页列出了12张专辑。专辑页面的链接如下:

http://music.163.com/#/artist/album?id=6452

可以看到,参数依然是歌手的id。

这里写图片描述

为了不处理分页,可以再传一个limit参数:

http://music.163.com/#/artist/album?id=6452&limit=100

这样,所有的专辑都在一个页面显示。再点击进入一张专辑:

这里写图片描述

专辑页面链接为:

http://music.163.com
  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值