【多模态缺失】A Knowledge-guided Dual-consistency Network for Multi-modal Rumor Detection

最新推荐文章于 2024-05-27 10:02:23 发布

Trae1ounG

最新推荐文章于 2024-05-27 10:02:23 发布

阅读量1.8k

点赞数 1

分类专栏：多模态缺失文章标签：多模态谣言检测深度学习机器学习

本文链接：https://blog.csdn.net/Trae1ounG/article/details/133933250

版权

多模态缺失专栏收录该内容

2 篇文章

订阅专栏

现有多模态谣言检测方法很少考虑图像与文字、内容与背景知识的语义不一致性，且难以处理缺失模态问题。本文提出知识引导的双一致性网络，用两个子网络捕获跨模态和内容 - 知识级别的不一致性，还能处理视觉模态缺失，实验表明该框架性能优于基线。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Inconsistent Matters: A Knowledge-guided Dual-consistency Network for Multi-modal Rumor Detection

摘要

现有方法很少考虑图像和文字之间的语义不一致性且很少发现帖子内容与背景知识不一致的情况。此外，它们通常假设多种模态的完整性，因此无法处理现实场景中缺失的模态。出于社交媒体中的谣言更可能具有不一致语义的直觉，提出了一种新颖的知识引导的双一致性网络来检测多媒体内容的谣言。使用两个一致性检测子网络来同时捕获跨模态级别和内容-知识级别的不一致性。它还可以在不同的缺失视觉模态条件下实现强大的多模态表示学习，使用特殊的标记来区分具有视觉模态的帖子和没有视觉模态的帖子。对三个公共现实世界多媒体数据集的广泛实验表明，我们的框架在完整和不完整模态条件下都可以优于最先进的基线。

关键词：谣言检测、多模态学习、社交媒体分析

引言

现实世界的例子：文字和图片不匹配，因此跨模态不一致性对于多模态谣言检测很重要。谣言检测也可以使用知识图谱（Konwledge Graph KG）进行指导，但过去方法忽略的内容-知识不一致性。因此在本工作中，利用跨模态一致性和内容-知识一致性来进行多模态谣言检测。
在这里插入图片描述

挑战：

① 由于文本、图像和KG数据具有不同的格式和结构，如何将它们整合到统一的框架中来检测谣言

②没有直接的方法来衡量和捕捉上述不一致之处

②有效的检测器预计能够稳健地适应不同的视觉模态缺失模式：训练数据、测试数据或两者中的模态缺失

为解决以上挑战，提出新型知识引导的双重一致性网络（KDCN） 可以同时捕获跨模态层面和内容知识层面的不一致信息。为了验证我们的动机，即不一致对于谣言检测很重要，我们分析了谣言数据集，并观察到上述两种类型的不一致信息在谣言和非谣言帖子之间呈现出统计上的显着区别（详见第 4.3 节）。

根据这一观察，我们的框架主要由两个子神经网络组成：一个是提取图像和文本之间的跨模态差异，另一个是通过测量实体对的 KG 表示来识别帖子内容中实体对的异常共现距离。两个子神经网络紧密耦合，使两个不一致信息来源互补，即使其中一个来源不可用或不可靠，也可以提高谣言检测的鲁棒性。此外，为了使我们的框架能够处理不完整的模式，我们利用伪图像作为补充，并用特殊的标记来表明它不是真实的，简单且可以使我们的框架不改变以与完整模态数据相同的过程处理不完整模态数据，同时在不同的视觉模态缺失情况下提供稳定的性能。

贡献：

提出新型的知识引导的双重一致性网络，以同时捕获跨模式不一致和内容知识不一致。它旨在检测具有多模态内容的谣言，但也可以适应视觉模态缺失的情况。
第一个揭露谣言帖子往往包含在 KG 上比非谣言帖子更远的实体对。这一观察可以作为区分谣言和非谣言的有用信号。
对三个现实世界数据集的广泛实验表明，我们的框架比最先进的基线能够更好地检测谣言。即使在非常严重的缺失情况下，它也有利于在不同的视觉模态缺失模式下提供稳定和鲁棒的性能。

理论

1 问题定义

数据集包含两个模态： $D=\{D^f,D^t\}$ ， $D^f=\{T_i,I_i,y_i\}$ 表示完整模态数据， $D^t=\{T_i,y_i\}$ 表示缺失视觉模态数据，可能出现在训练数据或测试数据。

2 架构

在这里插入图片描述

框架包含四个组件：①预处理组件用于获得实体和其表示②跨模态一致性子网络用于捕捉每个推文文字和图片之间的一致性③内容-知识一致性子网络用于通过内容和KG之间的实体距离来捕捉一致性④分类层聚合多种特征进行分类

首先抽取文字/图片的实体并得到其表示，送入内容-知识一致性自网络来得到知识级不一致性特征。同时，对于特定的帖子，引入特殊标记[CMT]作为指示符来确定该帖子是属于模态完整子集 $D^f$ 还是纯文本子集 $D^t$ 。如果帖子属于纯文本子集，因为它缺乏视觉数据，我们用伪图像补充帖子，使其与跨模态一致性子网络兼容。然后将图像和文本数据以及令牌输入到跨模态一致性子网络中，以产生跨模态不一致特征和模态共享特征。经过上述两个一致性子网络后，所获得的特征被融合并输入分类层以产生最终标签。在以下部分中，我们将详细描述每个组件。

3 多模态帖子预处理

对于文本内容，我们使用实体链接解决方案TAGME2 [41]和Shuyantech3 [42]来提取文本中的歧义实体，并将其分别链接到英文和中文文本的知识图谱中的相应实体。对于视觉内容，我们利用现成的预训练 YOLOv3 [43] 将语义对象提取为视觉单词。检测到的对象（例如人和狗）的标签被视为实体提及。这些提及与 KG 中的实体相关联。

然后，文本模态中的实体链接到 KG 中的实体。在本文中，我们以Freebase作为参考KG。我们选择 Freebase 作为知识源的原因有两个：（1）Freebase 比 Probase 和 Yago 拥有更大规模的实体集，这将有利于谣言检测任务。 (2) 有现成的预训练实体嵌入可以直接被我们的模型使用。从公开可用的 OpenKE6 中获取预训练的实体表示，这些实体表示在 Freebase 上使用 TransE [44] 进行训练。实体表示嵌入维度为 50。因此，我们的模型接受四重输入{文本、图像、实体集、预训练 KG}。

4 跨模态一致性网络

跨模态一致性子网络旨在捕获图像和文本之间的不一致并处理视觉模态缺失问题。它由两个单独的文本和图像编码器、一个用于获得相应模态唯一特征和模态共享特征的分解层以及一个用于产生跨模态不一致特征的融合层组成。

4.1 文字和图片编码

将文本和图像映射到特征表示中。对于文本信息，我们使用 BERT 预训练的初始词嵌入，并利用双向长短期记忆（Bi-LSTM）网络按照[45]中的过程将每个文本序列编码为向量。特别是，它将单词嵌入 $w_j$ 映射到其隐藏状态 $h_j∈ R^{d_0}$ ，其中 $w_j∈ R^{d_w}$ 表示长度为 M 的单词序列中第 j 个单词的预训练嵌入。我们连接 $\overset{\rightarrow}{h_0}$ 和 $\overset{\leftarrow}{h_M}$ 以获得文本内容 $h ∈ R^{2d_0}$ 的隐藏状态。之后，我们将文本表示编码为 d 维向量 $H_T$ : 在这里插入图片描述

类似地，我们使用预训练的 CNN 将图像编码为 d 维向量 $\hat H_I$

在这里插入图片描述

4.2 缺少视觉形态的伪图像

对于谣言检测任务，源帖子中通常不存在视觉模态，因此根本没有必要生成图像。此外，基于可用的文本模态生成图像将在处理社交网络上的大量帖子时产生大量的计算成本。为了解决这个问题，提出使用带有特殊标记的伪图像来补充这些数据实例。可以在不改变框架架构的情况下解决模态在灵活性方面不完整的问题（缺少训练、测试或两者的模态）。它在效率方面也有优势，因为不需要额外的训练或生成开销。此外，与丢弃模态缺失的数据实例的传统方法不同，它可以充分利用训练数据，从而更好地推广到测试数据。

具体来说，对于纯文本子集 $D_t = \{T_j, y_j\}_j$ 中的每个帖子，文本模态的处理方式与第 2 节中描述的模态完整帖子相同。为了解决视觉数据丢失问题，用伪图像填充视觉数据的位置。具体来说，我们使用白色图像（RGB (255, 255, 255 ）作为伪视觉数据。为了将其与真实图像区分开，引入了特殊的完整模态token（[CMT]）。 $CMT]=\{0 ,1\}$ ，其中 0 表示帖子来自纯文本子集，1 表示来自模态完整子集。

之后模型接受五元组输入：模态完整子集 $D_f$ 的 ${Text，Image，Entity set，Pretrained KG，[CMT] = 1\}$ 和 ${Text，pseudo Image，Entity set，Pretrained KG，[CMT]= 0\}$ 为纯文本子集 $D_t$ 。

改进式（2）中的图像编码方法使其同时容纳真实图像和伪图像。具体来说，我们在每个图像表示之后放置相应的完整模态标记 [CMT]。它们被拼接并映射到低 d 维空间
在这里插入图片描述

4.3 多模态分解

受到将多模态表示投影到不同空间的想法的启发[46]，我们将原始视觉和文本表示分解为模态唯一空间和模态共享空间。提出了跨模态共享层来提取模态不变共享特征，使用图像特定层和文本特定层来提取相应的模态独特特征：

其中 $H_I$ 和 $H_T$ 是上一小节中获得的编码视觉和文本特征， $W_{shared} ∈ R^{d_s×d}$ 和 ${P_I , P_T \} ∈ R^{d_u×d}$ 分别是模态共享空间和模态独特空间的投影矩阵。 $I_s$ 和 $I_u$ 分别是分解的模态共享和模态独特的图像特征，而 $T_s$ 和 $T_u$ 分别是分解的模态共享和模态独特的文本特征。
在这里插入图片描述

为了确保分解的模态共享空间与模态唯一空间无关，引入正交约束：
在这里插入图片描述

可以转化为以下正交损失，
![在这里插入图片描述](https://img-blog.csdnimg.cn/3d4fbbb9283b43b6a2239a649b1056bd.png)

在获得两个模态独特特征和两个模态共享特征后，我们将它们组合为跨模态不一致性表示 $f_{unique}$ 和整体模态共享表示 $f_{share}$ ，即

其中 ⊙ 表示逐元素乘法运算， $f_{unique} ∈ R^{3d_u}$ 用于度量模态之间的不一致信息， $f_{share} ∈ R^{3d_s}$ 用于表示模态之间的共享信息。获得跨模态对比特征的类似想法也可以在[46]中找到。但与它只关注不同模态之间的对立不同，我们还保留模态共享内容以保留全面的多模态语义。然后 $f_{unique}$ 和 $f_{share}$ 都将作为最终分类层的输入的一部分，如式（10）所示。当最终的分类目标优化时，图像特征和文本特征将被强制投影到相同的语义空间中，并且在该空间中通过测量Tu−Iu的差异来评估它们的跨模态对比度。此外，模态共享内容还将与内容知识一致性子网络中的知识信息融合。

5 内容-知识一致性子网络

5.1 实体对排序

进行预处理后，得到的实体表示记为 $e_l ∈ R^{d_e}$ 。我们测量帖子中每对实体表示的曼哈顿距离，并保留距离最大的前 k (k = 5) 个实体对及其相应的距离值。请注意，对于实体数量小于 4 的帖子，实体对的数量不能达到 5（ $C^2_4 = 6$ ， $C^2_3 = 3$ ）。为了解决这个问题，我们用伪实体进行补充，其表示是随机向量。我们连接成对的实体表示以获得实体对表示 $EP_i ∈ R^{2d_e}$ (i ∈ [1, k])。我们还得到实体对距离 $dis^i ∈ R$ (i ∈ [1, k])

5.2 具有距离感知符号注意力的内容知识融合【distance-ware signed attention】

为了将知识图谱与帖子内容结合起来，将前 k 个最大距离实体对与模态共享内容与注意力机制融合起来。提出了一种新颖的方法，使用模态共享内容作为查询 Q，使用实体对表示 EP 作为值和键，并使用距离感知的符号注意力机制来学习最相关的融合部分。通过采用这种方法，我们可以解决内容知识一致性建模问题并捕获它们复杂的语义关系。这与注意力机制中查询、值和键的传统用法不同，因为还可以捕获查询和键之间的负相关性。此外，与[19]中最初签名的注意力不同，考虑了另一个因素（即实体距离）来调整软权重，以更好地获得内容知识不一致特征。

在传统的注意力机制中，如果查询和键之间的相关性为负（即它们的兼容性（例如点积）值为负），将认为它是无关紧要的。然而，这种负相关可能代表相反的语义，这可能有利于谣言检测任务。相反，符号注意力机制添加了一个“-Softmax”操作，使用查询和键之间相反的兼容性值作为 Softmax 函数的输入，以放大负相关性。因此，兼容性值将通过两个通道，即传统的Softmax（即“+Softmax”）和“-Softmax”函数，以捕获模态共享内容与顶部之间的正向和负向关系。 k 个最大距离实体对。由此我们得到了两个通道对应的两个注意力权重，即
在这里插入图片描述

模态共享特征 Q 是图像和文本的模态共享特征的串联。 $α^i_{pos}$ 和 $α^i_{neg}$ 均表示第 i 个实体对的注意力权重，但分别反映正相关性和负相关性。较大的 $α^i_{pos}$ (或 $α^i_{neg}$ ）意味着实体对与内容在语义上更正（或负）相关。

同时，实体距离较大的实体对对学习对象的影响应该更显著。遵循这种直觉，我们通过考虑这两个因素来设计每个实体对的最终注意力权重，使用权重来计算没对实体对表示的加权和
在这里插入图片描述

其中 disi (i ∈ [1, k]) 表示第 i 个实体对的实体距离， $β^i_∗$ (∗ ∈ {pos, neg}) 是距离感知的符号注意力权重， $f^∗_{kg}$ (∗ ε { pos, neg}) 是基于符号注意力权重的正/负实体对嵌入， $f_{kg} ∈ R^{4d_e}$ 表示代表内容知识不一致特征的最终语义向量。

6 谣言分类层

在这里插入图片描述

最后，将跨模态不一致特征、内容知识不一致特征和模态共享特征连接起来，并将其输入到具有 Sigmoid 激活函数的全连接层中，以获得实例 i 的预测概率，即

损失：
在这里插入图片描述

实验

略

结论

我们提出了一种用于多模态谣言检测的知识引导双一致性网络，其中涉及一个框架中的跨模态不一致和内容知识不一致信息。此外，我们的框架还可以处理现实检测场景中的视觉模态问题。对三个数据集的广泛实验证明了我们的建议在捕获和融合两种类型的不一致特征方面的有效性，以在模态完整和模态不完整的条件下实现最佳性能。请注意，我们的框架捕获的不一致特征可以轻松插入其他谣言检测框架中，以进一步提高其性能。在未来的工作中，我们计划探索更有效的不一致特征，并设计一个更可解释和更稳健的模型