使用Python分析网易云歌曲评论信息,通过可视化处理我发现了这些有趣的规律

本文分享了一位学生通过Python分析网易云音乐评论数据的过程,包括时间分布、用户评论数量、词云图、用户年龄和地区分布等。研究发现,评论主要集中在下午和晚上,部分用户评论数量惊人,年轻粉丝占多数,且广东和四川的评论数量领先,女性粉丝比例较高。
摘要由CSDN通过智能技术生成

前言

前几天有个学生娃子找我帮忙做点可视化的作业,作业内容包括采集网易云音乐热评评论内容,数据量1W作业足够,然后就是做点数据分析相关的工作即可。这份大作业里边有网络爬虫,有数据分析和数据处理,还有可视化,算是一个大实验了,还需要上交实验报告。这里拿出来部分知识点,给大家分享。学生娃的作业,参考了这个文章:​ ​网易云音乐评论爬取​ ​。

数据来源

首先是数据来源,来自网易云音乐热评,代码这里就不放出来了,调用了API获取的,抓取难度就少了许多,这里不在赘述了。

分析过程

时间处理

下面的代码主要是评论时间分布,主要是针对时间列做了数据处理,常规操作,你也对照的去以日期和月份去挖掘下有意思的事情。

import pandas as pd
from pyecharts import Line

# 读取数据
df = pd.read_csv('music_comments.csv', header=None, names=['name', 'userid', 'age', 'gender', 'city', 'text', 'comment', 'commentid', 'praise', 'date'], encoding='utf-8-sig')
# 根据评论ID去重
df = df.drop_duplicates('commentid')
df = df.dropna()
# 获取时间
df['time'] = [int(i.split(' ')[1].split(':')[0]) for i in df['date']]

# 分组汇总
date_message = df.groupby(['time'])
date_com = date_message['time'].agg(['count'])
date_com.reset_index(inplace=True)

# 绘制走势图
attr = date_com['time']
v1 = date_com['count']
line = Line("歌曲被爆抄袭后-评论的时间分布", title_pos='center', title_top='18', width&#
  • 4
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值