2019ACM收录文章 MVAE: Multimodal Variational Autoencoder for Fake News Detection

最新推荐文章于 2024-07-26 13:24:37 发布

XI-C-Li

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量148

点赞数

文章标签：人工智能机器学习算法

本文链接：https://blog.csdn.net/m0_58581487/article/details/132532331

版权

在文章的阐述中，除了最左边的图中，从文字和图片出发都能看出新闻是假的，单独的文字（中间的图）或单独的图片（最右边的图）都无法完全胜任虚假新闻检测的工作，图片和文字信息的组合互为补充，能够使得检测任务更为精确。

作者对以往的关于虚假新闻检测的研究进行总结，注意到以往的虚假新闻检测模型都没有明确的关于新闻里跨模态数据关联关系的目标函数，受自编码器的思想启发，在多模态模型中学习共享的表征。并由于变分自编码器（VAE）可以生成式地模拟数据的复杂分布。提出多模态变分自编码器用来学习图片与文字的共享表征，并使用普通的VAE来解决新闻分类问题。多模态变分自编码器从学习到的共享表征中重构两个模态的数据，以此来发现两个模态之间的关联关系。

MVAE结构

编码器：将文字和图片的信息编码为相对低维的随机向量。

解码器：将随机向量重构为文字和图片的信息。

虚假新闻检测模块：利用随机向量（多模态的共享表征）来判断新闻真伪。

编码器模块

编码器可分为文字编码器和视觉编码器

文字编码器的输入为新闻中的单词序列， $T = [T_1,T_2...T_n]$ ， $n$ 为总共的文字数量，每一个 $T_i$ 都是一个词嵌入向量，通过将每个单词输入到预训练好的深度网络中得到。接着将这些词嵌入向量输入到堆叠双向LSTM中，并将输出通过一个全连接层。公式表示为

$R_T=\phi(W_{tf}R_{lstm})$

$W_{tf}$ 是全连接层的参数， $R_{lstm}$ 是LSTM的输出。

视觉编码器的输入为附在新闻上的图片序列 $V$ ,采用在ImageNet数据库上训练的VGG-19架构的预训练网络，并使用全连接层(FC7)的输出。接着再让其通过一个全连接层。

$R_V=\phi(W_{vf}R_{vgg})$

$W_{vf}$ 是全连接层的参数， $R_{vgg}$ 是VGG-19架构中全连接层(FC7)的输出。
$R_V$ 和 $R_T$ 都是相同的大小，编码器最终将 $R_V$ 和 $R_T$ 连接起来形成共享表征，并通过一个全连接层获得两个向量 $\mu$ 和 $\sigma$ ，可以看作共享表征的均值和方差，接着就是重参数化技巧，便于参数训练，将随机性与参数分离，从标准正态分布中采样得到 $\epsilon$ ，最终的重参数化多模态表征可以写为

$R_m=\mu+\sigma \odot \epsilon$

通过将编码器整体表示为 $G_{enc} (M,\theta_{enc})$ ， $\theta_{enc}$ 表示所有在编码器中学习的参数，M则表示包含多模态信息（图片和文字）的新闻序列，也因此，对某一篇的新闻的多模态表征可以写为

$R_m=G_{enc} (m,\theta_{enc})$

解码器模块

解码器模块和编码器的过程相反，目的是从编码器输出的多模态表征中重构出数据。

解码器也分为文字解码器和视觉解码器

文字解码器中，多模态表征首先通过一个全连接层，然后作为堆叠双向LSTM的输入，最终将输出通过一个使用softmax激活函数的全连接层得到每个单词在该时间步长的概率矩阵 $\widehat{t}_m$ ，最后可以用交叉熵损失来度量重构损失。

视觉解码器中，目标是从多模态表征中重构出VGG-19的特征，将多模态输出通过两个全连接层来重构出VGG-19的特征 $\widehat{r}_{vggm}$ ，可以用均方误差来度量重构损失。

将解码器视为 $G_{dec}(R_m,\theta_{dec})$ ， $\theta_{dec}$ 代表了解码器网络中的所有参数，可以将其表达为

$(\widehat{t}_m,\widehat{r}_{vggm}) =G_{dec}(R_m,\theta_{dec})$

在VAE模型中，目标函数包含重构损失和两个分布之间的KL散度，其中文字的重构损失可以定义为

$\displaystyle L_{rec_t} = -E_{m\sim M}[\sum_{i=1}^{n_t}\sum_{c=1}^{C}1_{c=t_m^{(i)}}\log{\widehat{t}_m^{(i)}}]$

$C$ 表示词汇表的词汇数量， $n_t$ 是文本中词汇的数量，关于 $1_{c=t_m^{(i)}}$ 的理解，预训练好的词向量矩阵中包含了所有文本中不重复单词的词向量，针对一篇新闻文本的交叉熵计算时，只计算该文本里有的单词，即 $c=t_m^{(i)}$ 。 $t_m^{(i)}$ 表示第 $m$ 篇新闻的第 $i$ 个词的词向量。 $1_{c=t_m^{(i)}}$ 可以看作one-hot向量，大小为词汇表的词汇数量，但只有第m篇文章的单词的对应位置处取值为1，其余为0。

图片的重构损失可以定义为

$\displaystyle L_{rec_{vgg}}= E_{m\sim M}[\frac{1}{n_v}\sum_{i=1}^{n_v}(\widehat{r}_{vgg_{m}}-r_{vgg_{m}})^2]$

两个分布分别指的是编码器模块中近似的变分分布（后验），参数为 $\mu$ 和 $\sigma$ ，以及标准正态分布（先验），这两个分布之间的KL散度通过公式推导可用两个分布的参数表示为

$\displaystyle L_{KL} = \frac{1}{2}\sum_{i=1}^{n_m}(\mu_i^2+\sigma^2_i-\log{\sigma_i}-1)$

$M$ 代表了包含多模态信息（图片和文字）的新闻序列， $n_{v}$ 是VGG-19特征的维度， $n_m$ 是多模态表征的维度

通过最小化这些损失来寻找最优的参数， $\widehat{\theta}_{enc}$ 和 $\widehat{\theta}_{dec}$ ,

$(\widehat{\theta}_{enc}^*,\widehat{\theta}_{dec}^*)=\underset{\theta_{enc},\theta_{dec}}{argmin}(L_{rec_{vgg}}+L_{rec_{t}}+L_{KL})$

虚假新闻检测模块

这个模块同样以多模态表征作为输入来检测这篇新闻是真是假，由两个全连接层组成，将这个模块记为 $G_{fnd}(R_m,\theta_{fnd})$ ， $\theta_{fnd}$ 则是虚假新闻检测模块中的所有参数，输出为每篇新闻是虚假新闻的概率 $\widehat{y}_m$

$\widehat{y}_m=G_{fnd}(R_m,\theta_{fnd})$

并使用交叉熵损失来度量分类损失来度量

$L_{fnd}= -E_{(m,y)\sim(M,Y)}[y\log{\widehat{y}_m}+(1-y)\log{(1-\widehat{y}_m)}]$

$Y$ 表示了一系列真值标签。

通过最小化损失来寻找最优参数 $\widehat{\theta}_{enc}$ 和 $\widehat{\theta}_{fnd}$

$(\widehat{\theta}_{enc}^*,\widehat{\theta}_{fnd}^*)=\underset{\theta_{enc},\theta_{fnd}}{argmin}(L_{fnd})$

模块汇总图可以表示为

论文链接：

MVAE: Multimodal Variational Autoencoder for Fake News Detection | The World Wide Web Conference (acm.org)

GitHub:GitHub - dhruvkhattar/MVAE: This repository contains the code to the paper "MVAE: Multimodal Variational Autoencoder for Fake News Detection"

XI-C-Li

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
2019ACM收录文章 MVAE: Multimodal Variational Autoencoder for Fake News Detection

论文阐述了虚假新闻检测任务中图片，文字信息融合对检测准确率提升的重要性。提出了一种融合了图片和文本信息的VAE应用于虚假新闻检测。
复制链接

扫一扫