【自然语言处理】实验6:面向新冠肺炎的社会计算应用

本博客介绍了一个利用自然语言处理技术分析新冠肺炎相关谣言、新闻和法律文书的实验。通过情感分析和谣言检测方法,探讨了疫情期间信息传播的特点和社会影响。提供数据集详细信息及实验思路,展示了疫情新闻的情感分布,指出正向信息对公众信心的重要性。
摘要由CSDN通过智能技术生成

 清华大学驭风计划课程链接 

学堂在线 - 精品在线课程学习平台 (xuetangx.com)

代码和报告均为本人自己实现(实验满分),只展示主要任务实验结果,如果需要详细的实验报告或者代码可以私聊博主,接实验技术指导1对1

有任何疑问或者问题,也欢迎私信博主,大家可以相互讨论交流哟~~

案例简介

新冠肺炎疫情牵动着我们每一个人的心,在这个案例中,我们将尝试用社会计算的方法对疫情相关的新闻和谣言进行分析,助力疫情信息研究。本次作业为开放性作业,我们提供了疫情期间的社交数据,鼓励同学们从新闻、谣言以及法律文书中分析社会趋势。(提示:运用课上学到的方法,如情感分析、信息抽取、阅读理解等分析数据)

数据说明

COVID-19 社交数据共享平台 提供了与新冠疫情相关的社交数据信息,分别为疫情相关谣言 CSDC-Rumor、疫情相关中文新闻 CSDC-News和疫情相关法律文书 CSDC-Legal。

疫情相关谣言 CSDC-Rumor

这一部分的数据集收集了:

(1)自 2020 年 1 月 22 日开始的微博不实信息数据,包括被认定为不实信息的微博的内容、发布者,以及举报者、审理时间、结果等信息,截至 2020 年 3 月 1 日共 324 条微博原文,31,284 条转发和 7,912 条评论,用于帮助各位研究者分析研究疫情期间的不实信息传播;

(2)自 2020 年 1 月 18 日开始的腾讯谣言验证平台以及丁香园不实信息数据,包括被认定为正确或不实信息的谣言内容、时间以及用以判断是否为谣言的依据等信息,截至 2020 年 3 月 1 日共 507 条谣言数据,其中事实性数据 124 条,数据分布为,负例:420 正例:33 不确定:54。

疫情相关中文新闻 CSDC-News

这一部分的数据集收集了自 2020 年 1 月 1 日开始的新闻数据,包含了新闻的标题、内容、关键词等信息,截至 2020 年 3 月 16 日共收集 148,960 条新闻以及 1,653,086 条对应评论,用于帮助各位研究者分析研究疫情期间的新闻数据。

疫情相关法律文书 CSDC-Legal

该数据为对从 CAIL 收集的经匿名化的法律文书数据中筛选出的历史上与疫情相关的部分,共 1203 条,每条数据包含了文书标题、案号以及文书全文,供研究者用于进行疫情期间相关法律问题的研究。

参考思路

  1. 谣言检测:如何准确快速地识别社交媒体上的谣言是社会计算领域中的一个重要问题,在我们提供的疫情相关谣言数据集上,同学们可以尝试不同的谣言检测方法,比如基于特征[1]、基于神经网络[2, 3]或基于传播模型的方法[4],综述[5]总结了谣言检测的相关技术。

  2. 新闻情感分析:参考我们的情感分析作业,可以通过关键词识别[6]等技术对疫情相关的中文新闻进行情感分析,并找出情感背后蕴含的社会学原因。

  3. Sina Visitor System 清华自然语言处理实验室微博中给出了一些可视化例子,同学们也可以用统计学和语言学方法对文本进行分析和可视化。

评分标准

本次作业为开放性作业,我们会从

  1. 选题的合理性和新颖性

  2. 采用方法的合理性和技术含量

  3. 作业的完成度和工程量

  4. 报告和社会学分析的完整性和深入程度

等方面为作业进行评分。

参考资料

[1] Information  credibility  on twitter. in Proceedings of WWW, 2011.

[2] Detecting rumors from microblogs with recurrent neural networks. in Proceedings of IJCAI, 2016.

[3] A convolutional approach for misinformation identification. in Proceedings of IJCAI, 2017.

[4] The spread of true and false news online. Science, 2018.

[5] False information on web and social media: A survey. arXiv preprint, 2018.

[6] Characterization of the Affective Norms for English Words by Discrete Emotional Categories. Behavior Research Methods, 2007.

实验结果

这里我首先画了一个以日期为基准的 1 1 号到 3 8 号新闻评论正负向情感的百分比分布,可以看出以红虚拟线 50% 为基准,负向情感占比均超过 50% ,能看出疫情期间大家的评论很容易是负向的

这是的根据评论总数前十地区的评论总数百分比分布画出的圆饼图,可以直观的看出来自北京的评论最多,占到评论总数的 20.9% ,其次是上海,广东广州等等,可以看出基本都是发达地区,说明这些地区的网络普及更为发达,所以新闻评论数量的占比也多

这是基于评论数量的前十地区画出的正负向情感数量和正向情感百分比画出的图,从图中看出北京评论的总数有 30 多万,之后是上海大约 7 万,广东广州 4w多,其中从正向情感的折线图可以看出其中上海的正向情感占比在前十城市中是最少的,大约为 37% ,相反可以说明上海负面情感占比最大,而北京的正向情感最多,达到了 43%

再结合这个柱状图图来看,负向的情感在前十评论数量地区均超过 50% 

从图中能看出前三的词是都,不,好,然后还有就是,中国,美国,疫情,加油等词,但从词云图就能看出新闻评论很多都和疫情有一定关联性

 这里主要用于展示正向情感最高的前十个新闻标题及其对应的评论正向情感数, 从图中看出即使在疫情时期任然有不少比较正向的新闻,其中新闻新闻钟南山院士:已有几种药物准备用于临床治疗,这也显示出我国在疫情初期在积极寻找治疗方法,使得国民有信心应对疫情

这里主要用于展示负向情感最高的前十个新闻标题及其对应的评论负向情感数。可以看出前十负面评论的新闻中很多都与疫情有着密不可分的关系。而且这个时候明显看出负面情绪的评论比之前正向评论的数量要多不少。

社会学分析总结
在疫情期间,微博上出现更多负向情感评论可能有几个原因:
焦虑情绪增加: 疫情引发了人们的焦虑和不安。这种不确定性和对健康的担忧可能导致更多负面情绪的表达,因此人们可能更倾向于在社交媒体上发表负面评论。
信息不确定性: 在疫情期间,信息的不确定性较高,人们可能会因为缺乏确切、可信的信息而产生不满和负面情绪,这可能会在评论中得到反映。
情绪宣泄平台: 社交媒体通常是人们宣泄情绪的平台之一。在面临压力和不确定性时,人们倾向于在社交媒体上发表情绪化的评论,可能更容易表达负面情绪。
舆论引导和关注度: 在疫情期间,负面信息通常更容易引起人们的关注。媒体和社交媒体可能更多地报道负面事件,这可能会导致更多负面评论的出现。
情绪传播和情感共鸣: 社交媒体上的情绪传播效应也会影响评论的情感倾向。人们可能会受到他人负面情绪的影响,产生情感共鸣并在评论中表达类似的情绪。

  • 25
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

X.AI666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值