基于豆瓣哈哈哈哈哈哈小组的数据分析研究

目录

1. 引言

2. 方法

3. 数据与结果分析

4. 结论与展望

参考文献


纯属兴趣研究,曾发于豆瓣哈组。

豆瓣哈组爬虫地址:https://github.com/Captain-F/DoubanHahahaScraper


摘要:本文对豆瓣哈哈哈哈哈哈小组建组以来的帖子进行数据分析,挖掘好哈的帖子所具有的特征,并进行关联分析,发现好哈的帖子长度不宜过长,需要有配图,并且插图数量适中。同时,本文还对帖子进行了其他数据分析。

关键词:快乐;哈哈哈;数据分析

1. 引言

哈哈哈哈哈不仅是一种大笑、一种快乐,还是我们在工作中释放压力、生活中排解和缓解负面情绪的一种直接和有效的方式。当前,普通民众受新冠病毒的影响,基本都宅在家中,生活会比较单调、乏味和无聊,而一些能够让人哈哈哈哈哈的帖子既能够给大家带来快乐,也能舒缓因疫情影响而紧绷的神经[1]。回想当初入组时的申请理由,我想生活中能够多一些哈哈哈哈哈哈。入组后,笔者在哈组中确实收获了不少快乐。但秉着共同哈哈哈哈哈的想法,在自己快乐的同时,也要给别人带来快乐。笔者给哈组贡献了零星的帖子,但似乎让其他的哈er收获不到快乐,还是有那么点的小小的难过(哈哈哈)。基于自身研究方向,笔者想着,什么样的帖子最能让大家欢乐?这样的帖子又有什么样的数据特征呢?在本文中,笔者对建组以来的帖子进行了数据分析和可视化研究。

本文的其余部分安排如下。第二部分描述了本研究所用的方法。第三部分则是实验结果与分析。第四部分是总结与展望。

2. 方法

本文所用的方法可分为两个部分,分别是数据采集和数据分析。总的来说,本哈er首先写了一个爬虫代码,爬取了自建组以来的所有哈贴,生成csv表,并对其进行去重。之后,利用自然语言处理和数据可视化方法,对过滤后的数据进行不同维度的分析。

3. 数据与结果分析

3.1数据

笔者爬取了从201866日(哈组第一帖)到202021日时间段内所发的所有哈贴。爬取的字段包括:发帖时间、帖子名称、帖子内容、回帖内容、回应数、帖子中图片数、发帖用户id、发帖用户名称、帖子url,共计八个字段。其中,回帖的内容指用户对帖子的直接回复,用户对某个的帖子的评论进行回应,不记录回应内容中。帖子中图片数指,用户在帖子所插入的图片或gif图数量的总和。最后,共爬取1, 923, 224条帖子及回应,经过过滤,共获得1, 920, 647帖子及回应。其中,帖子数为81, 947,回应数为1, 838, 700.

3.2结果分析

3.2.1 哈帖内容分析

1是对哈帖内容的进行展示的词云图。从图中可以看出,哈哈哈甚是显眼,充分体现了组内的发帖核心思想。

图1 哈帖词云图

3.2.2 什么样的帖子会比较好哈?

哈哈哈哈哈组发的帖子,都以文本、图片(gif)或文本结合图片的方式为主。那么好哈的帖子和文本长度、插入图片数会有什么相关关系呢? 从图2的散点图可以看出,好哈的帖子多集中在字符长度为0~1000的帖子中,且当帖子字符增多,回应数总体呈下降的趋势。

图2 帖子长度同回应数之间的散点图

从图3的散点图可以更明显的看出,好哈的帖子多集中在[0, 50]区间的左半区,且当帖子的配图数逐步增多,回应数总体呈下降趋势。

图3 插图数量同回应数量关系图

在文本,图片以及文本结合图片这三种发帖方式中,哪种方式的发帖会更流行呢,获回应数也更多呢?从图4中可以看出,以图片为发帖方式的占比最大,其次是文本加图片,最后是文本。但是发帖获得回应数这一指标来看,文本加图片的发帖方式更受用户青睐,其次是图片,最后是纯文本。从可哈性的角度来说,以文本结合图片或者图片的方式发帖,更容易让大家快乐起来。

图4 不同发帖方式占比及获回应数占比

总的来说,好哈的帖子长度不宜过长,需要有配图并且插图数量适中。(有点像废话)

3.2.3 谁在哈组发帖最多呢?

从图5中可以看出,尬聊师、费楠多和阴晴位列发帖量前三甲。其中,尬聊师个人在哈组发帖贡献量达1414,独一档!之后,笔者访问了前三者的个人主页,发现其在豆瓣中也是非常活跃的用户。

图5 哈组中发帖数量前三甲

3.2.4 谁投的帖子比较好哈呢?

6中排名第一的帖子从哈效果上来说,并不是很好,但在趣味性和互动性上,是非常好的帖子。排名的第二帖子是个讨论帖,如果严格按照组规来说的话,此帖是不符合要求的,但此贴所提及的事也是引发了广泛的社会影响。排名第三的帖子是实至名归,真的很好哈!!!哈哈哈哈哈哈哈哈哈。图7是排名4-8的帖子。

图6 获回应数量前三的哈帖

图7 获回应数量排名4-8的帖子

3.2.5本组中一共有多少精华贴呢?

截止2020.2.1,精华帖数量为61!!!(哈中哈,管理员加精还蛮严格的)

3.2.6 本组的哈贴产量怎么样?

从图8可以看出,2018年哈组创业起步比较困难,但6月之后,组内发帖数量攀升。至10月,发帖数量开始下降。

图8 2018年哈贴产量

步入至2019年,哈组发贴数量基本成上升态势,并于201912月,发帖量成功突破10, 000大关。

图9 2019年哈帖产量

3.2.7 组内哈er哈哈哈哈哈输出量怎么样?

本组中回应区内共输出8, 838, 199次哈,平均每帖输出108个哈!

图10 哈er总哈数

其中哈组成员“不歪の太”哈出了天际,在此贴中,共输出3591个哈!堪称本组最能哈的选手!!!

图11 最长哈输出

4. 结论与展望

本文对建组以来以来的哈帖进行了简单的数据分析,并将帖子回应数同帖子中字符长度和插图数进行了关联分析。此外,本文还对哈帖做出了其他的数据分析。未来的研究中,可以将组内发帖用户特征融入,从而获得更为有趣的发现。

哈哈哈哈哈组是一个快乐、有趣的小组,是大家分享和传递快乐的地方。当下很艰难,但一定会好起来,武汉加油,中国加油。

参考文献

[1] 盛玉雷. 人人有责, 疫情防控从我做起. 人民日报, 2020-02-11 (15).


 

  • 6
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
[入门数据分析的第一堂课]这是一门为数据分析小白量身打造的课程,你从网络或者公众号收集到很多关于数据分析的知识,但是它们零散不成体系,所以第一堂课首要目标是为你介绍:Ø  什么是数据分析-知其然才知其所以然Ø  为什么要学数据分析-有目标才有动力Ø  数据分析的学习路线-有方向走得更快Ø  数据分析的模型-分析之道,快速形成分析思路Ø  应用案例及场景-分析之术,掌握分析方法[哪些同学适合学习这门课程]想要转行做数据分析师的,零基础亦可工作中需要数据分析技能的,例如运营、产品等对数据分析感兴趣,想要更多了解的[你的收获]n  会为你介绍数据分析的基本情况,为你展现数据分析的全貌。让你清楚知道自己该如何在数据分析地图上行走n  会为你介绍数据分析的分析方法和模型。这部分是讲数据分析的道,只有学会底层逻辑,能够在面对问题时有自己的想法,才能够下一步采取行动n  会为你介绍数据分析的数据处理和常用分析方法。这篇是讲数据分析的术,先有道,后而用术来实现你的想法,得出最终的结论。n  会为你介绍数据分析的应用。学到这里,你对数据分析已经有了初步的认识,并通过一些案例为你展现真实的应用。[专享增值服务]1:一对一答疑         关于课程问题可以通过微信直接询问老师,获得老师的一对一答疑2:转行问题解答         在转行的过程中的相关问题都可以询问老师,可获得一对一咨询机会3:打包资料分享         15本数据分析相关的电子书,一次获得终身学习

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值