【python】实验2项目2:使用爬虫Selenium模拟浏览器获取爬取QQ音乐中你喜欢的某位歌手(陈奕迅)

本文介绍了如何使用Python的Selenium库模拟浏览器操作,爬取QQ音乐中陈奕迅的前五首热门歌曲的歌词、流派、发行时间、评论数等信息,并将数据存储为CSV文件。接着,利用Pandas模块统计每首歌的平均点赞次数和标准差,分析评论数量与点赞数的相关性。此外,还探讨了选做任务,如词频统计和时间轴分析。
摘要由CSDN通过智能技术生成

请使用爬虫Selenium模拟浏览器获取爬取QQ音乐中你喜欢的某位歌手(可以是任意歌手)最受欢迎的前5首歌曲的歌词、流派、歌曲发行时间、评论条数、评论时间、评论点赞次数、评论内容具体(每一首歌的评论>=500条)。QQ音乐地址https://y.qq.com/
如下图所示:
在这里插入图片描述

  1. 用CSV模块将数据存储下来(文件名:QQMusic.csv)
  2. 使用Pandas模块创建5个Series,即一首歌的数据一个Series,统计每首歌的每个评论点赞次数(没有点赞则为0次),求5首歌的平均点赞次数和标准差。
  3. 使用Pandas模块创建5个DataFrame,分析其评论条数和点赞数量的相关性。
  4. (选做)统计5首歌歌词、评论的词频,画出词云,分析歌词、歌曲流派、评论(前五个高词频)关键词的相关性。
  5. (选做)按照时间轴画出每一首评论的时间,分析用户喜欢什么时候听这首歌。

解题思路:1.首先是配置好谷歌驱动
2.第二步找到要查找的歌手
我选择了两种方式:
方法一:打开客户端的界面,因为会弹出窗口,且需要加载才会显示。

使用sleep,等待加载出来后点击关闭按钮
在输入框内输入“陈奕迅”并点击即可
方法二:因为网络问题,加载出要关闭的窗口需要一段时间,所以可以直接打开陈奕迅的界面。
配置CSV文件的存写。
利用循环分别找到我们定好的五首歌,获取歌曲名,歌词,流派,歌曲发行时间,评论数,500条评论。其中歌词需要进行展开,才能得到完整的歌词,进行拼接。
为了更加美观可以给CSV文件添加一行表头,CSV文件就清晰明了了。取得成功后存入即可。
使用Pandas模块创建5个Series,即一首歌的数据一个Series,统计每首歌的每个评论点赞次数(没有点赞则为0次),求5首歌的平均点赞次数和标准差。
平均值可以使用mean(),标准差可以使用var()。
使用Pandas模块创建5个DataFrame,分析其评论条数和点赞数量的相关性。
相关性使用corr()函数可以求得相关性。

from selenium import webdri
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

碳酸小星球Yaro

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值