AAAI 2023 | 自举多维度特征的虚假新闻检测

30a81dda5c00a5f4ad07c1b0bfb5d1c3.gif

©作者 | Qichao Ying

单位 | 复旦大学

研究方向 | 多媒体与AI安全

6ac7a1a888bbccdf8201d604fcae878e.png

论文标题:

Q Ying, X Hu, Y Zhou, Z Qian, D Zeng, S Ge. Bootstrapping Multi-view Representations for Fake News Detection. AAAI 2023.

论文连接:

https://arxiv.org/pdf/2206.05741.pdf

代码连接:

https://github.com/yingqichao/fnd-bootstrap

很高兴大半年后终于又在多模态虚假新闻检测领域重新开张一篇工作。

基于深度学习的多模态虚假新闻检测(Fake News Detection, FND)一直饱受关注,本文发现以往关于多模态 FND 的研究仍未解决两个主要问题

1. 不同工作虽提出一系列复杂的特征提取和跨模态融合网络来从新闻中获取表征判断是否存在异常。然而,没有足够的机制保证每个模态提取的信息都能够被充分用于最终的新闻检测决策环节,也鲜有显式机制衡量不同模态信息对检测的直接贡献。

2. 跨模态一致性(cross-modal consistency)在一些已有工作中被赋予过高权重,该因素与新闻真假程度的关联应被重新考虑。跨模态一致性与新闻的真实程度具有弱相关(如图 1 所示,CC 表示跨模态一致性)。

1e70cf8a4eedcc98febca10a80c750d0.png

本文提出从新闻不同模态与不同角度提取特征,通过自举多元表征以及优化多模态特征学习方法实现具有更高准确率且一定解释性的 FND 方案。本文提出了两种机制来更好解决上述两个现存问题:

1. 引入粗判断机制(Coarse classification),对从多模态新闻提取得到的图像模式信息(image pattern,包含高频细节信息等)、图像语义信息(image semantics)与文本信息(text),分别送入单独的分类器,直接利用新闻不同视角信息对整条新闻真实性进行判断。该思路受到人类判断虚假新闻过程中检索各模态内容过程启发,利用粗判断从不同角度尽可能从新闻中提取得到最可能直接决定新闻真假性的表征,从而提升特征提取能力,为最终的决策环节提供足够的“证明性材料”。

2. 利用加权函数(reweighting function),学习粗分类预测结果与对应特征重要性的关系,显式对不同模态信息进行加权,可以看作是一种全新的基于模态的注意力机制(modality-wise attention)。

3. 将跨模态一致性学习(cross-modal consistency learning)从多模态特征生成中剥离。对于跨模态特征,其应作为剩余单模态特征的补充,而并不应仅包含模态一致性信息,因此不能由一种类似 CLIP 学习过程的跨模态一致性学习引导特征提取过程。本文利用跨模态一致性分数加权一个可学习表征,使其与多模态表征分离为两个独立的向量,从而允许更多跨模态信息能够被表征于多模态表征中。

67af285f79172bbbf988d6422aedeb47.png

本文的网络设计如上图所示,首先,为了解耦图像模式和图像语义特征,尽可能防止特征冗余重复,在图像模式分枝中使用 CNN 结构,并加入 BayarConv 作为预处理,不使用图像增强(包含旋转、调色等),该滤波器作为可学习高通滤波器,可以保留图像中高频信息,有利于过滤图像语义。

在图像语义分枝中,我们不使用常规的 ViT 或者 Swin,而是尝试使用凯明大神比较新的 MAE 作为预训练网络,并使用图像增强,保证该分枝输入与图像模式分枝不同,且更有效学习图像全局信息。粗分类器、跨模态一致性分类器与最终决策阶段使用的分类器都是简单的 MLP 结构。

075976546deb7955c0dcccda00adf54d.png

跨模态一致性学习与 Chen 等人提出的方法相似,将训练集中真新闻的图文进行随机重组得到“图文不匹配”新闻,并将原始真新闻设为“图文”匹配新闻,令跨模态一致性分类器就新标签进行预测。该分类器的预测结果用于加权一个独立可学习的向量用于告知决策过程该新闻的一致性程度,更多多模态信息则能够保留在多模态特征中。

本文提出的算法总结如下:

d32db0798b022f5b3e6c18d5d7da310c.png

本文在 Weibo、Weibo21 与 Gossip 数据集上验证了算法的有效性,结果显示,本文提出的方法能够在三个数据集上的整体检测结果优于一系列最近提出的跨模态虚假新闻检测方法。

0a70ef4f5135c3b534f2e41ab6749cc2.png

78b2f976664c594ba7c59b2a12cec9d8.png

同时,对于粗分类器是否会由于 1)过拟合 2)对于假新闻由于无法从单一模态提取得到异常信息造成欠拟合,从而导致方案整体性能随着训练过程出现下降,上图展示了在 Gossip 与 Weibo 数据集上的训练时各粗分类器与跨模态一致性分类器准确率曲线。

可以看到,在 20-30 轮训练时,模型的性能可以达到最佳,而过多或者过少的训练则确实会导致一些粗分类器发生过/欠拟合现象,同时,粗分类器准确率低于最终决策分类器的准确率,文本粗分类器准确率在所有三个数据集上都与最终决策分类器准确率最为接近,也意味着对许多虚假新闻,文本的真假程度对整条新闻的真实性影响很大。

fc2b6335eaf483e69611c713e91bb723.png

最终,我们打印了不同粗分类器与跨模态一致性分类器配对使用的加权函数,可以看到,多数加权函数呈现倒 V 形状,也即当粗分类器能够非常确信其判决结果时,在送入决策过程前抑制对应特征。由于加权函数通过学习得到,我们认为为了得到更鲁棒且全面的虚假新闻检测结果,决策机制鼓励尽可能使用更多角度、更多模态的信息,防止单一模态“一家独大”(例如文本),这与人类做谨慎判断的过程也是相符合的。

更多阅读

e0ad090d748900f52cb9dfaff4db6e62.png

63548cc7fe49565221c5666b5a4381e3.png

96a833ea6f009a94d0ce6c5529d3d36a.png

be55abd633afc3e6c5fcd36da4188a89.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

0269e08a58e0d6e1d4afb5c792c4d146.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

86a43bdaec3d4b73244ef2ea80bc5455.jpeg

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值