【爬虫+数据清洗+可视化分析】用Python分析哔哩哔哩“阳了“的评论数据

目录

一、背景介绍

二、爬虫代码

爬虫部分不作讲解。

三、可视化代码

3.1 读取数据

3.2 数据清洗

3.3 可视化

3.3.1 IP属地分析-柱形图

3.3.2 评论时间分析-折线图

3.3.3 点赞数分布-直方图

3.3.4 评论内容-情感分布饼图

3.3.5 评论内容-词云图

三、演示视频


一、背景介绍

您好,我是 @马哥python说,一枚10年程序猿。

以前大家见面都问"吃了没",最近大家见面都问"阳了没",奈何疫情反反复复,惟愿身体安康!

我用python抓取了B站上千条评论,并进行可视化分析,下面详细讲解代码。

二、爬虫代码

爬虫部分不作讲解,可移步往期文章详细了解。

三、可视化代码

为了方便看效果,以下代码采用jupyter notebook进行演示。

3.1 读取数据

用read_csv读取刚才爬取的B站评论数据:

查看前3行及数据形状:

3.2 数据清洗

处理空值及重复值:

3.3 可视化

3.3.1 IP属地分析-柱形图

可得结论:关于"阳了"这个话题,评论里关注度最高为广东、北京、江苏等地区,其中,广东省的关注度最高。同时,我们注意到,也包含一些海外网友的少量评论。

3.3.2 评论时间分析-折线图

分析出评论时间的分布情况:

可得结论:关于"阳了"这个话题,再抓取到的数据范围内,12.18日的评论数据量最大,达到了将近900的数量峰值。

3.3.3 点赞数分布-直方图

由于点赞数大部分为0或个位数情况,个别点赞数到达成千上万,直方图展示效果不佳,因此,仅提取点赞数<30的数据绘制直方图。

可得结论:从直方图的分布来看,点赞数在0-3个的评论占据大多数,很少点赞数达到了上千上万的情况。证明网友对"阳了"事件的态度分布比较均匀,没有出现态度非常聚集的评论内容。

3.3.4 评论内容-情感分布饼图

针对中文评论数据,采用snownlp开发情感判定函数:

情感分布饼图,如下:

可得结论:关于"阳了"这个话题,积极评价与消极评价占比差不多,积极评价稍高一点,反应出网友对感染阳性的态度反差很大,大约各占一半。

3.3.5 评论内容-词云图

初始化停用词和词云图对象:

jieba分词之后,对分词后数据进行绘制词云图:

可得结论:在词云图中,阳、感染、发烧、症状、疼、嗓子等词汇较大,出现频率较高,反应出众多网友对确诊阳性后描述病症、积极探讨病情的现状。

三、演示视频

【爬虫+可视化】演示:用python抓取并分析哔哩哔哩关于"阳了"的评论数据_哔哩哔哩_bilibili


获取源码:【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"阳了"的评论


我是马哥,全网累计粉丝上万,欢迎一起交流python技术。

各平台搜索“马哥python说”:知乎、哔哩哔哩、小红书、新浪微博、博客园。

  • 12
    点赞
  • 120
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

马哥python说

打赏多少不重要,表达认可最重要

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值