基于豆瓣哈哈哈哈哈哈小组的数据分析研究

目录

1. 引言

2. 方法

3. 数据与结果分析

4. 结论与展望

参考文献


纯属兴趣研究,曾发于豆瓣哈组。

豆瓣哈组爬虫地址:https://github.com/Captain-F/DoubanHahahaScraper


摘要:本文对豆瓣哈哈哈哈哈哈小组建组以来的帖子进行数据分析,挖掘好哈的帖子所具有的特征,并进行关联分析,发现好哈的帖子长度不宜过长,需要有配图,并且插图数量适中。同时,本文还对帖子进行了其他数据分析。

关键词:快乐;哈哈哈;数据分析

1. 引言

哈哈哈哈哈不仅是一种大笑、一种快乐,还是我们在工作中释放压力、生活中排解和缓解负面情绪的一种直接和有效的方式。当前,普通民众受新冠病毒的影响,基本都宅在家中,生活会比较单调、乏味和无聊,而一些能够让人哈哈哈哈哈的帖子既能够给大家带来快乐,也能舒缓因疫情影响而紧绷的神经[1]。回想当初入组时的申请理由,我想生活中能够多一些哈哈哈哈哈哈。入组后,笔者在哈组中确实收获了不少快乐。但秉着共同哈哈哈哈哈的想法,在自己快乐的同时,也要给别人带来快乐。笔者给哈组贡献了零星的帖子,但似乎让其他的哈er收获不到快乐,还是有那么点的小小的难过(哈哈哈)。基于自身研究方向,笔者想着,什么样的帖子最能让大家欢乐?这样的帖子又有什么样的数据特征呢?在本文中,笔者对建组以来的帖子进行了数据分析和可视化研究。

本文的其余部分安排如下。第二部分描述了本研究所用的方法。第三部分则是实验结果与分析。第四部分是总结与展望。

2. 方法

本文所用的方法可分为两个部分,分别是数据采集和数据分析。总的来说,本哈er首先写了一个爬虫代码,爬取了自建组以来的所有哈贴,生成csv表,并对其进行去重。之后,利用自然语言处理和数据可视化方法,对过滤后的数据进行不同维度的分析。

3. 数据与结果分析

3.1数据

笔者爬取了从201866日(哈组第一帖)到202021日时间段内所发的所有哈贴。爬取的字段包括:发帖时间、帖子名称、帖子内容、回帖内容、回应数、帖子中图片数、发帖用户id、发帖用户名称、帖子url,共计八个字段。其中,回帖的内容指用户对帖子的直接回复,用户对某个的帖子的评论进行回应,不记录回应内容中。帖子中图片数指,用户在帖子所插入的图片或gif图数量的总和。最后,共爬取1, 923, 224条帖子及回应,经过过滤,共获得1, 920, 647帖子及回应。其中,帖子数为81, 947,回应数为1, 838, 700.

3.2结果分析

3.2.1 哈帖内容分析

1是对哈帖内容的进行展示的词云图。从图中可以看出,哈哈哈甚是显眼,充分体现了组内的发帖核心思想。

图1 哈帖词云图

3.2.2 什么样的帖子会比较好哈?

哈哈哈哈哈组发的帖子,都以文本、图片(gif)或文本结合图片的方式为主。那么好哈的帖子和文本长度、插入图片数会有什么相关关系呢? 从图2的散点图可以看出,好哈的帖子多集中在字符长度为0~1000的帖子中,且当帖子字符增多,回应数总体呈下降的趋势。

图2 帖子长度同回应数之间的散点图

从图3的散点图可以更明显的看出,好哈的帖子多集中在[0, 50]区间的左半区,且当帖子的配图数逐步增多,回应数总体呈下降趋势。

图3 插图数量同回应数量关系图

在文本,图片以及文本结合图片这三种发帖方式中,哪种方式的发帖会更流行呢,获回应数也更多呢?从图4中可以看出,以图片为发帖方式的占比最大,其次是文本加图片,最后是文本。但是发帖获得回应数这一指标来看,文本加图片的发帖方式更受用户青睐,其次是图片,最后是纯文本。从可哈性的角度来说,以文本结合图片或者图片的方式发帖,更容易让大家快乐起来。

图4 不同发帖方式占比及获回应数占比

总的来说,好哈的帖子长度不宜过长,需要有配图并且插图数量适中。(有点像废话)

3.2.3 谁在哈组发帖最多呢?

从图5中可以看出,尬聊师、费楠多和阴晴位列发帖量前三甲。其中,尬聊师个人在哈组发帖贡献量达1414,独一档!之后,笔者访问了前三者的个人主页,发现其在豆瓣中也是非常活跃的用户。

图5 哈组中发帖数量前三甲

3.2.4 谁投的帖子比较好哈呢?

6中排名第一的帖子从哈效果上来说,并不是很好,但在趣味性和互动性上,是非常好的帖子。排名的第二帖子是个讨论帖,如果严格按照组规来说的话,此帖是不符合要求的,但此贴所提及的事也是引发了广泛的社会影响。排名第三的帖子是实至名归,真的很好哈!!!哈哈哈哈哈哈哈哈哈。图7是排名4-8的帖子。

图6 获回应数量前三的哈帖

图7 获回应数量排名4-8的帖子

3.2.5本组中一共有多少精华贴呢?

截止2020.2.1,精华帖数量为61!!!(哈中哈,管理员加精还蛮严格的)

3.2.6 本组的哈贴产量怎么样?

从图8可以看出,2018年哈组创业起步比较困难,但6月之后,组内发帖数量攀升。至10月,发帖数量开始下降。

图8 2018年哈贴产量

步入至2019年,哈组发贴数量基本成上升态势,并于201912月,发帖量成功突破10, 000大关。

图9 2019年哈帖产量

3.2.7 组内哈er哈哈哈哈哈输出量怎么样?

本组中回应区内共输出8, 838, 199次哈,平均每帖输出108个哈!

图10 哈er总哈数

其中哈组成员“不歪の太”哈出了天际,在此贴中,共输出3591个哈!堪称本组最能哈的选手!!!

图11 最长哈输出

4. 结论与展望

本文对建组以来以来的哈帖进行了简单的数据分析,并将帖子回应数同帖子中字符长度和插图数进行了关联分析。此外,本文还对哈帖做出了其他的数据分析。未来的研究中,可以将组内发帖用户特征融入,从而获得更为有趣的发现。

哈哈哈哈哈组是一个快乐、有趣的小组,是大家分享和传递快乐的地方。当下很艰难,但一定会好起来,武汉加油,中国加油。

参考文献

[1] 盛玉雷. 人人有责, 疫情防控从我做起. 人民日报, 2020-02-11 (15).


 

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值