paddlenlp:社交网络中多模态虚假媒体内容核查

最新推荐文章于 2024-01-08 01:29:57 发布

yeverwen

最新推荐文章于 2024-01-08 01:29:57 发布

阅读量1.5k

点赞数

文章标签： nlp

本文链接：https://blog.csdn.net/dylan_me/article/details/132093054

版权

本文介绍了新媒体时代内容社区中虚假信息的识别挑战，详细阐述了比赛任务，涉及数据集、模型构建、环境配置（如飞桨平台的Ernie版baseline）以及评分标准。作者分享了初赛环境操作步骤，旨在降低参赛者入门难度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、背景

随着新媒体时代信息媒介的多元化发展，各种内容大量活跃在媒体内中，与此同时各类虚假信息也充斥着社交媒体，影响着公众的判断和决策。如何在大量的文本、图像等多模态信息中，通过大数据与人工智能技术，纠正和消除虚假错误信息，对于网络舆情及社会治理有着重大意义。

二、任务

本次赛题要求选手基于官方指定数据集，通过建模同一事实跨模态数据之间的关系（主要是文本和图像），实现对任一模态信息能够进行虚假和真实性的检测。鼓励参赛选手通过大模型解决问题，进行技术探索。

三、数据集

本次比赛提供从国内外主流社交媒体平台上爬取的含有不同领域声明的数据集。

1、初赛阶段

训练集与验证集：提供中文训练集5694条以及英文数据4893条，同时公开英文验证集611条与中文验证集711条供选手优化模型。

评测数据：提供文娱、经济、健康领域的测试数据，这些领域的数据较容易区分。英文与中文数据集的测试集各600条。参赛队伍上传的结果文本的每一行就是对应的分类结果，该数据不公布，用于评测。

2、评分标准

采用在三个不同类别上的macro F1的高低进行评分，兼顾了准确率与召回率，是谣言检测领域主流的自动评价指标。自动指标排名是计算两个测试集上的Macro F1平均值排序得到。专家会参考自动指标排名、技术方案和现场陈述进行最终的排名。

四、环境操作

该模型运行在百度的飞桨平台，本文运行的是基于Ernie版的baseline。
1、点击【运行一下】
在这里插入图片描述
2、选择运行的环境，我们选择【V100 32GB】，这里算力卡基本就是依据你图片的入模容量决定。算力卡余额是有限的，所以尽量用【基础版】环境进行代码编写，编写完后再用【V100 32GB】来进行训练。

3、将/home/aistudio/data/data229919/data.zip 文件拷贝（单击右键进行复制）到根目录，在根目录进行解压（单机右键进行解压），会生成一个 queries_dataset_merge 的文件夹
在这里插入图片描述
4、后续的操作就是右图中的代码运行了，此操作和notebook基本一致，点运行即可，最后等待大约两个小时四十分钟，就能得到训练模型的结果了。