【R文本分析】《工作细胞》是一部成功的科普番嘛?

640?wx_fmt=gif 作者简介Introduction

宋星云  中国科学院心理研究所硕士,R语言爱好者。坚信数据是21世纪的新能源,用可靠的数据、可靠的方法,讲可靠的故事,下可靠的结论。

公众号:星云实验室


前文推送:

【R可视化】你家乡的肯德基都在哪儿?



640?wx_fmt=jpeg 640?wx_fmt=png

这是一个关于你自身的故事。你体内的故事——。人的细胞数量,约为37兆2千亿个。细胞们在名为身体的世界中,今天也精神满满、无休无眠地在工作着。运送着氧气的红细胞,与细菌战斗的白细胞……!这里,有着细胞们不为人知的故事。

《工作细胞》





640?wx_fmt=jpeg


《工作细胞》究竟有多火?


在暑假之前如果让人预测,恐怕谁也不会想到《工作细胞》这部科普番会从二次元火到了三次元,从课下火到了课堂,甚至从B站火到了C站。



640?wx_fmt=jpeg

在豆瓣,《工作细胞》获得了9.1的评分

640?wx_fmt=jpeg

在微博,话题#工作细胞#收获了2.6亿的阅读量,21万的讨论量

640?wx_fmt=jpeg

在B站,《工作细胞》的追番人数已经上至第一,且高了第二名33.3%之多

640?wx_fmt=jpeg

甚至,《人民日报》的文章也引用了《工作细胞》

640?wx_fmt=jpeg

一些学校甚至将观看《工作细胞》列为暑假作业



《工作细胞》靠着不同于传统科普番剧的萌出血的角色与热血战斗火了起来,动漫类KOL LexBurner曾在新番介绍中如是评价:

640?wx_fmt=jpeg


但是,在百度贴吧,“血小板吧”却爆发了不愉快的事件,原本用于病友交流的贴吧被一些《工作细胞》的观众占领,病友们甚至被下了逐客令,这无疑是与这部番剧“科普”的定性是冲突的。

640?wx_fmt=jpeg



640?wx_fmt=jpeg


《工作细胞》真的起到了科普的作用了吗?


1

评论文本分析


为了回答这一问题,笔者爬取了B站《工作细胞》截止至目前第十话共197,838条评论,并进行了分析。

让我们简单看一下爬下来的数据:

640?wx_fmt=jpeg

emmm...19.8万条评论,真是厉害……

在爬取完毕后,我们需要对评论进行分词,为了更有效的分词,笔者加载了若干了医疗、生物术语与网络用语、二次元词汇的搜狗细胞词库与停用词词库,分词完毕后通过TF-ITF的方法提取关键词,进行词频统计,并绘制词云图:

640?wx_fmt=jpeg


血小板大获全胜!

640?wx_fmt=gif 640?wx_fmt=jpeg

血小板

是不是很好看

老夫的少女心啊

我们重点来看一下词频最高,而且也是整部番剧最火的“血小板”

取出含有“血小板”的11,866条评论,进行分词,统计有多少评论涉及了医疗、生物学术语(非动漫角色,如刷红白细胞CP之类的不计)


在含有“血小板”词的评论中,有2564(21.6%)条出现了其他的医疗/生物学词汇,具体他们都说了些什么呢?

640?wx_fmt=jpeg

学霸们一边看番一边记笔记

640?wx_fmt=jpeg

有亲身经历的人前来科普,甚至还帮大家纠正了错误的认识

(划重点,期末会考!)

640?wx_fmt=jpeg

满满博物君风格的科普段子手



可以看到,使用了其他医疗词汇的评论,大多是科普、笔记以及经验分享,这些评论的作者写作时再次回顾了相关的知识,也传播了相关知识点。

640?wx_fmt=jpeg

从词云中可以看到,仅表达对角色本身的喜爱的评论仍然占了大半。在评论中,大部分观众眼中的“血小板”仅仅是一个可爱的动漫形象,而不是三次元意义的血小板。

但是,在评论中记笔记、传播知识,门槛是比较高的,缺乏相关背景知识的观众也难以产出有价值的评论。因此,需要综合其他维度去评估,番剧是否激起了观众对相关知识的兴趣,观众是否主动对相关知识进行了补习。


2

点赞行为分析


考虑到产出有科普意义的评论门槛与成本较高,而点赞行为通常能够反映用户的喜好,笔者将全量涉及血小板的评论划分为是否与医疗知识相关两类,比较了两类评论的点赞数:

640?wx_fmt=png


从图中发现,更多用户对待具有科普性质的评论是有兴趣的。医疗相关评论收获点赞更多。医疗相关的评论平均每条收获3.16个赞,显著高于医疗无关的1.89个赞(排除热评后,t(2857.1)=-15.153, p<.001)。这说明,更多用户对待具有科普性质的评论同样是有兴趣的,虽然大部分人的主要关注点是在角色或剧情。



3

百度指数分析


百度目前是内地获取知识最常用的手段之一,而百度指数能够很好的反映相关知识的受关注程度。

血小板主演的第二话于7月15日周日播出,关键词选取了番剧中主要介绍的“血栓”、“凝血因子”两个血小板相关的知识点,与“结痂”这一剧中未直接介绍的知识点。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

注:7月17日血栓的搜索量较高的原因是当天赵丽颖在采访中说到了自己的健康问题


结果发现,《工作细胞》的上映给相关知识的搜索带来了一定的增长,但是效果非常有限。

在7月15日上映的第一天,3个词汇的搜索频率都有所上升(较之这一周周一至周六,血栓上涨了6.18%,凝血因子6.6%,结痂22.5%),需要注意的是“结痂”一词搜索的增长明显更多,若不考虑出现了其他社会热点新闻,笔者推测其原因是观众可能通过弹幕或者评论了解到了“结痂”这一知识点,但是剧中并没有进行解释,好学的观众们选择了询问度娘。


一周后(7月22日)非会员才可以看到第二话的当天,三个词汇的搜索量同样有小幅增长。但是该涨幅较小。


但是,词汇4位数的搜索量与番剧的7位数播放量相比明显不在一个数量级,看剧后进行查阅资料的转化率非常低。


640?wx_fmt=jpeg


另外,周日并不是搜索健康问题的高频时间段,仅以近一个月为例,周日相关词汇的搜索量甚至降到了一周的冰点。因此,我们可以排除时间的原因。



《工作细胞》是近些年难得既好看,又能学到知识的科普番剧。能将枯燥的医疗卫生知识以该种有趣的形式,并且引起如此大的关注,《工作细胞》已经非常成功了。《工作细胞》激起了观众对相关知识的兴趣,但大多数人并没有将兴趣转化为行动,进行学习。


不过,产生兴趣不正是一切的开始吗?


写在最后: 《工作细胞》正在b站热播,每周日0:30更新哦,目前已经更新到第10话。点击 阅读原 就可以直接试看了。

640?wx_fmt=jpeg


大家都在看

2017年R语言发展报告(国内)

精心整理 | R语言中文社区历史文章合集(作者篇)

精心整理 | R语言中文社区历史文章整理(类型篇)


640?wx_fmt=jpeg

公众号后台回复关键字即可学习

回复 爬虫            爬虫三大案例实战  
回复 
Python       1小时破冰入门

回复 数据挖掘     R语言入门及数据挖掘
回复 
人工智能     三个月入门人工智能
回复 数据分析师  数据分析师成长之路 
回复 机器学习      机器学习的商业应用
回复 数据科学      数据科学实战
回复 常用算法      常用数据挖掘算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值