读《Multimodal Topic Detection in Social Networks with Graph Fusion》

2021

摘要

社交网络中用户生成的内容通常包含图像、视频等多模态数据。多模态主题检测对融合和对齐不同模式的异构特征提出了新的挑战

引言

本文主要研究了图像-文本社交网络数据的多模态主题检测问题。受[19]中引入的图融合网络(GFN)的启发(就是Modality to modality translation: an adversarial representation learning and graph fusion network for multimodal fusion这一篇),我们采用了一个基于GFN的编码器和一个多层感知器(MLP)解码器来解决多模态主题检测中的融合问题。与原来的GFN不同,我们设计了一个重构损失函数,以无监督的方式约束编码器和解码器的学习过程。该编码器通过逐层构造顶点来分层融合多模态信息,其中将特征视为顶点,将多模态动力学视为边。因此,融合表示包含信息结构,提供了显式的多模态动力学和丰富的语义信息,提高了多模态主题检测性能。在Yelp数据集上的实验结果表明,我们提出的方法优于基线方法。

过去

Mai等人开发了一种图融合网络(GFN)[19],通过逐层构建顶点和边,分层融合多模态特征。融合的表示包含信息结构和显式的多模态动力学,有利于主题检测。因此,我们采用了一个基于GFN的编码器和一个MLP解码器来学习输入数据中丰富的语义信息,以提高多模态主题检测的性能。

方法

该模型由特征嵌入模块F、图融合模块G和聚类模块C.组成,以原始图像和文档作为输入,提取视觉和文本特征向量。然后G分层融合多模态信息,通过图融合输出具有信息结构的表示。基于融合的表示形式,C采用聚类算法进行主题检测。

在这里插入图片描述

编码器

视觉:预训练过的VGG16对输入图像提取特征(就是说这里并不参与从头训练学习?是拿个现成的模型相当于,顶多有些微调吧,迁移学习真的无赖)
文本:

我们使用NLTK[5]来进行文本标记化。然后用GloVe[21]中预训练的单词嵌入初始化标记序列seq={e1,e2,…,eL},得到向量表示,其中ei∈RDe,L为序列的长度。最后,我们使用一个带有LSTM细胞[11]的双向递归神经网络(BiRNN)[24]来获得嵌入序列的隐藏状态表示,其中h∈Rf。(那不就是BiLSTM)

图融合

受[19]的启发,E将多模态特征视为顶点(不就两模态?那节点到底是怎么建模的?),以及模态与边之间的模型交互。在第一层中,采用一个模态注意网络MAN∈Rf→R1来重新加权多模态特征的重要性。然后我们对重新加权的特征向量进行平均,得到第一层的最终输出,即单模态 dynamics U:
在这里插入图片描述
(就是说两模态特征通过学习单元MAN得到后面计算U所用的权重α吧,加权的权重通过学习得到这个思路)
在这里插入图片描述
(后接MLP,两模态特征拼接送入,学习V)
正如[19]中所介绍的,两个向量彼此越接近,它们之间存在的互补信息就越少。因此,我们使用一个矩阵Sv,h来描述多模态特征向量的相似性:(安定的内积相似度,先做soft归一化)
在这里插入图片描述
连接第一层和第二层顶点的边的权重定义为:(讲究是什么?)
在这里插入图片描述
第二层的最终输出,即组合的双模态 dynamics B,是通过重新加权计算出来的:
在这里插入图片描述
从而融合表示
在这里插入图片描述
最后解码
在这里插入图片描述

聚类

在z的基础上聚类,自动识别输入数据的潜在主题:(相当于一般AE或者GAN的嵌入分类环节吧) T p = C ( z ) T_p = C(z) Tp=C(z)
Birch聚类

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值