#yyds这些技巧盘点#使用Python分析网易云歌曲信息，通过可视化处理我发现了有趣的规律评论

最新推荐文章于 2024-06-29 13:57:34 发布

老贡讲Python

最新推荐文章于 2024-06-29 13:57:34 发布

阅读量1k

点赞数

分类专栏： Python爬虫及项目文章标签： python 开发语言后端网易云

本文链接：https://blog.csdn.net/python4857/article/details/122452170

版权

本文介绍了使用Python分析网易云音乐评论数据的过程，包括时间分布、用户评论数量、词云、地区分布和粉丝性别。结果显示，用户喜欢在下午和晚上评论，评论数量上百的粉丝活跃，年轻粉丝居多，评论主要来自四川和广东，女性粉丝占比大。此外，还分享了学习资源礼包，包括电子书和练习项目。

摘要由CSDN通过智能技术生成

前言

前几天的同学娃子找我帮忙做点音乐化的作业，作业内容收集网，数据量1W作业评，然后做点数据分析相关的工作。轻松云大作业里有网络虫，还有化解，找一个大的实验了，还需要上交实验报告。这里有作业，有部分知识点，给分享。学生娃的这篇文章：网易云音乐评论爬取。

数据来源

首先是数据，网易云音乐评论来自这里就不放出来了，调用了API获取的，来源代码就少了很多，这里不在赘述了。

分析过程

时间处理

下面的代码主要是时间发布的，是按照时间列编排的数据，正常处理的，你也主要以日期和时间去操作下操作的事情。

<span style="color:#444444"><span style="background-color:#f6f6f6"><span style="color:#333333"><strong>从</strong></span>pyecharts <span style="color:#333333"><strong>import</strong></span> Line<span style="color:#333333"><strong>导入</strong></span>pandas <span style="color:#333333"><strong>as</strong></span> pd


<span style="color:#888888"># 读取数据</span>
df = pd.read_csv( <span style="color:#880000">'music_comments.csv'</span> , header= <span style="color:#333333"><strong>None</strong></span> , names=[ <span style="color:#880000">'name'</span> , <span style="color:#880000">'userid'</span> , <span style="color:#880000">'age'</span> , <span style="color:#880000">'gender'</span> , <span style="color:#880000">'city'</span> , <span style="color:#880000">'text'</span> , <span style="color:#880000">'comment'</span> , <span style="color:#880000">'commentid'</span> , <span style="color:#880000">'praise'</span> , <span style="color:#880000">'date'</span> ], encoding= <span style="color:#880000">'utf-8-sig'</span> )
 <span style="color:#888888">#可知评论ID去重</span>
df = df.drop_duplicates( <span style="color:#880000">'commentid'</span> )
df = df.dropna()
<span style="color:#888888"># 获取时间</span>
df[ <span style="color:#880000">'time'</span> ] = [int(i.split( <span style="color:#880000">' '</span> )[ <span style="color:#880000">1</span> ].split( <span style="color:#880000">':'</span> )[ <span style="color:#880000">0</span> ]) <span style="color:#333333"><strong>for</strong></span> i <span style="color:#333333"><strong>in</strong></span> df[ <span style="color:#880000">'date'</span> ]]

<span style="color:#888888">#</span>
分组<span style="color:#888888">汇总</span>date_message = df.groupby([ <span style="color:#880000">'time'</span> ])
date_com = date_message[ <span style="color:#880000">'time'</span> ].agg([ <span style="color:#880000">'count'</span> ])
date_com.reset_index（就地=<span style="color:#333333"><strong>真</strong></span>）

<span style="color:#888888"># 绘制图表</span>
attr = date_com[ <span style="color:#880000">'时间'</span> ]
v1 = date_com[ <span style="color:#880000">'count'</span> ]
line = Line( <span style="color:#880000">"歌曲被爆抄袭后-评论的时间</span>分发<span style="color:#880000">"</span> , title_pos= <span style="color:#880000">'center'</span> , title_top= <span style="color:#880000">'18'</span> , width= <span style="color:#880000">800</span> , height= <span style="color:#880000">400</span> )
line.add( <span style="color:#880000">""</span> , attr, v1, is_smooth= <span style="color:#333333"><strong>True</strong></span> , is_fill= <span style="color:#333333"><strong>True</strong></span> , area_color= <span style="color:#880000">"#000"</span> , is_xaxislabel_align= <span style="color:#333333"><strong>True</strong></span> , xaxis_min= <span style="color:#880000">"dataMin"</span> , area_opacity= <span style="color:#880000">0.3</span> , mark_point&