随着近几年深度学习的发展,歌词生成器逐渐变为一个有趣而热门的研究点。这篇和接下来的几篇文章,将从零开始,记录数据的抓取、清洗与分析,到歌词生成模型的构建、训练与分析过程。
要做歌词生成器,首先得有丰富的数据。花了点时间在网易云音乐网页版上面摸索,最后找到了几个页面,几个API,终于把一整套的流程整理了出来。
转载请注明出处:从零开始做歌词生成器 - 0 - 抓取网易云3万首歌词
抓取流程分析
首先是这个页面:网易云音乐
基本上把热门的歌手都涵盖了,如果觉得不满足,还可以点左边的分栏,能找到更多的歌手。
接下来,以周董为例,点击进入周董的页面:周杰伦 - 网易云
周董页面的链接为:
http://music.163.com/#/artist?id=6452
每个歌手都有唯一的id,使用这个id就能找到歌手的页面。不过如果只抓这个链接的话,我们只能抓取到50首歌。点击所有专辑,发现每页列出了12张专辑。专辑页面的链接如下:
http://music.163.com/#/artist/album?id=6452
可以看到,参数依然是歌手的id。
为了不处理分页,可以再传一个limit参数:
http://music.163.com/#/artist/album?id=6452&limit=100
这样,所有的专辑都在一个页面显示。再点击进入一张专辑:
专辑页面链接为:
http://music.163.com