python3爬取网易云歌单数据清洗_网页抓取网易云音乐及评论数据分析

网页抓取网易云音乐及评论数据分析

游贤

成都理工大学信息科学与技术学院

【摘

要】

摘要:为了分析网易云音乐中哪些歌曲是热门歌曲,哪些歌曲的评论

最多,从而了解到人们对于不同音乐类型的喜爱程度,采用成熟的

scrapy

爬虫

框架,从歌手信息开始,抓取每个歌手的所有演唱曲目和对应评论信息,最后

对数据进行清洗处理,得出结论。

【期刊名称】

数码世界

【年

(

),

期】

2018(000)009

【总页数】

1

【关键词】

网页采集

对称加密

1.

思路分析

抓取全站信息一般选择有规律的网页采用广度优先方法,考虑到如果从歌单页

面开始的话,会有很多歌曲重复,因为相同的歌曲可以划分到不同的歌单。因

此最终决定从歌手页面开始,作为种子页面,这样歌曲的重复量会小很多(如

果有多个歌手合唱,那么这首歌会出现在每个歌手的歌曲页面当中,他们的访

问地址是不一样的)

方法一:

http

//music.163.com/discover/artist

页面出发,可以找到所

有的音乐人,

url

http

//music.163.com/discover/artist/cat

id=xxx

1001

1002

1003

2001

2002

2003

6001

6002

6003

7001

7002

7003

4001

4002

4003

。然后我没随便进入其中其一个页面

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值