【python】实验2项目2：使用爬虫Selenium模拟浏览器获取爬取QQ音乐中你喜欢的某位歌手（陈奕迅）

最新推荐文章于 2023-08-03 20:09:49 发布

碳酸小星球Yaro

最新推荐文章于 2023-08-03 20:09:49 发布

阅读量1.3k

点赞数 2

文章标签： python 爬虫 selenium

本文链接：https://blog.csdn.net/qq_49081198/article/details/118445991

版权

本文介绍了如何使用Python的Selenium库模拟浏览器操作，爬取QQ音乐中陈奕迅的前五首热门歌曲的歌词、流派、发行时间、评论数等信息，并将数据存储为CSV文件。接着，利用Pandas模块统计每首歌的平均点赞次数和标准差，分析评论数量与点赞数的相关性。此外，还探讨了选做任务，如词频统计和时间轴分析。

摘要由CSDN通过智能技术生成

请使用爬虫Selenium模拟浏览器获取爬取QQ音乐中你喜欢的某位歌手（可以是任意歌手）最受欢迎的前5首歌曲的歌词、流派、歌曲发行时间、评论条数、评论时间、评论点赞次数、评论内容具体(每一首歌的评论>=500条)。QQ音乐地址https://y.qq.com/
如下图所示：
在这里插入图片描述

用CSV模块将数据存储下来（文件名：QQMusic.csv）
使用Pandas模块创建5个Series，即一首歌的数据一个Series，统计每首歌的每个评论点赞次数（没有点赞则为0次），求5首歌的平均点赞次数和标准差。
使用Pandas模块创建5个DataFrame，分析其评论条数和点赞数量的相关性。
(选做)统计5首歌歌词、评论的词频，画出词云，分析歌词、歌曲流派、评论（前五个高词频）关键词的相关性。
(选做)按照时间轴画出每一首评论的时间，分析用户喜欢什么时候听这首歌。

解题思路：1.首先是配置好谷歌驱动
2.第二步找到要查找的歌手
我选择了两种方式：
方法一：打开客户端的界面，因为会弹出窗口，且需要加载才会显示。

使用sleep，等待加载出来后点击关闭按钮
在输入框内输入“陈奕迅”并点击即可
方法二：因为网络问题，加载出要关闭的窗口需要一段时间，所以可以直接打开陈奕迅的界面。
配置CSV文件的存写。
利用循环分别找到我们定好的五首歌，获取歌曲名，歌词，流派，歌曲发行时间，评论数，500条评论。其中歌词需要进行展开，才能得到完整的歌词，进行拼接。
为了更加美观可以给CSV文件添加一行表头，CSV文件就清晰明了了。取得成功后存入即可。
使用Pandas模块创建5个Series，即一首歌的数据一个Series，统计每首歌的每个评论点赞次数（没有点赞则为0次），求5首歌的平均点赞次数和标准差。
平均值可以使用mean（），标准差可以使用var（）。
使用Pandas模块创建5个DataFrame，分析其评论条数和点赞数量的相关性。
相关性使用corr（）函数可以求得相关性。

from selenium import webdri

最低0.47元/天解锁文章

碳酸小星球Yaro

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫