请使用爬虫Selenium模拟浏览器获取爬取QQ音乐中你喜欢的某位歌手(可以是任意歌手)最受欢迎的前5首歌曲的歌词、流派、歌曲发行时间、评论条数、评论时间、评论点赞次数、评论内容具体(每一首歌的评论>=500条)。QQ音乐地址https://y.qq.com/
如下图所示:
- 用CSV模块将数据存储下来(文件名:QQMusic.csv)
- 使用Pandas模块创建5个Series,即一首歌的数据一个Series,统计每首歌的每个评论点赞次数(没有点赞则为0次),求5首歌的平均点赞次数和标准差。
- 使用Pandas模块创建5个DataFrame,分析其评论条数和点赞数量的相关性。
- (选做)统计5首歌歌词、评论的词频,画出词云,分析歌词、歌曲流派、评论(前五个高词频)关键词的相关性。
- (选做)按照时间轴画出每一首评论的时间,分析用户喜欢什么时候听这首歌。
解题思路:1.首先是配置好谷歌驱动
2.第二步找到要查找的歌手
我选择了两种方式:
方法一:打开客户端的界面,因为会弹出窗口,且需要加载才会显示。
使用sleep,等待加载出来后点击关闭按钮
在输入框内输入“陈奕迅”并点击即可
方法二:因为网络问题,加载出要关闭的窗口需要一段时间,所以可以直接打开陈奕迅的界面。
配置CSV文件的存写。
利用循环分别找到我们定好的五首歌,获取歌曲名,歌词,流派,歌曲发行时间,评论数,500条评论。其中歌词需要进行展开,才能得到完整的歌词,进行拼接。
为了更加美观可以给CSV文件添加一行表头,CSV文件就清晰明了了。取得成功后存入即可。
使用Pandas模块创建5个Series,即一首歌的数据一个Series,统计每首歌的每个评论点赞次数(没有点赞则为0次),求5首歌的平均点赞次数和标准差。
平均值可以使用mean(),标准差可以使用var()。
使用Pandas模块创建5个DataFrame,分析其评论条数和点赞数量的相关性。
相关性使用corr()函数可以求得相关性。
from selenium import webdri