—————————————————————————————————
泻药,以我抓取了307835首网易云音乐的歌单歌曲的经验,讲一下这个问题。
喜欢用Github的可以直接看我的项目源码,代码简单、具体使用方法和数据库细节介绍的很全面:Chengyumeng/spider163
我使用的技术栈是Python + MySQL,数据库相关的配置可在spider163.conf中配置。
我使用的策略是,通过热门歌单列表抓取全部歌单名字,热门歌单URL为:网易云音乐
抓下这些热门URL,持久化到数据库中,然后继续通过存储的歌单URL,继续抓取歌单里面的歌曲URL,歌曲的URL格式为:网易云音乐
然后下一步,就是针对网易云音乐的歌曲页面做信息采集,你可以抓的数据有歌曲的词曲作者、歌词、评论等信息,我抓取的数据为歌曲热评和评论总数。
基于此,可以建立这样的抓取模型:歌单列表 -> 歌单 -> 歌曲
------------------------分割线是这么画吗?-----------------------------
相关操作:
抓取热门歌单
$ python playlist.py 1 10
$ # 抓取热门歌单前十页的歌单名字和链接
$ python playlist.py 粤语 1 42
$ # 抓取全部粤语歌单
抓取歌单内歌曲
$ python music.py playlist 376259016
$ # 抓取编号为 376259016 的歌单
$ python music.py d