VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文解读

最新推荐文章于 2022-11-19 15:34:04 发布

DaddyJin

最新推荐文章于 2022-11-19 15:34:04 发布

阅读量4.1k

点赞数 2

文章标签：情感分类 VistaNet

本文链接：https://blog.csdn.net/qq_36204845/article/details/94144312

版权

VistaNet是一种利用文本和视觉信息进行情感分析的网络结构，通过视觉方面注意力机制强化文本中的关键部分，提高饭店评论等场景的情感分类准确性。

摘要由CSDN通过智能技术生成

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis

文章目录

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis

Abstract

检测一个文档表达出来的情感对于很多应用都是一个关键任务，比如给用户偏好建模、检测顾客行为、评估产品质量等。传统上，情感分析主要依赖文本内容。手机通常是人们手中唯一的相机，受此驱使，网络上的内容（点评，博客、推特）变得越来越多模式，也就是说文本内容加上照片。问题随之而来，这些视觉成分可不可以对情感分析有帮助呢？我们提出了Visual Aspect Attention Network（VistaNet），利用了文本和视觉成分。我们发现在许多情况下，图片对于文本起到了支持性作用，强调了文本实体中的显著部分，而不是独立于文本来表达情感。因此，我们不用视觉信息作为特征，VistaNet利用attention机制将视觉信息作为可以来指明文档中重要句子的对齐手段。与视觉特征和文本attention相比，在饭店评论上的实验显示出采用视觉方面的attention更有效果。

Introduction

在大网络时代，人们越来越依赖于评价软件，比如吃饭前都会去研究评论。

所以情感分析很重要。（文本分类；文本特征和监督学习；DNN）

文本中不同的部分对于情感分析贡献不一样。

Problem

现在的评价内容不止有文本，还有图像、音频、视频。

这里我们专注于图片。

Contributions

首先将图片作为文本分析的attention
提出VistaNet，将视觉信息作为句子级别的对齐
在Yelp饭店评论上做实验，效果好，并且可以延伸到其他带有图片的文档。

VistaNet网络结构

文档集C，包含若干文档c。每个文档包含L个句子s_i(i从1到L)和M个图片a_j(j从1到M)。每个句子s_i里包含T个单词（w_i,1,w_i,2……w_i,T）。

整个结构分为三层：

底层：用soft attention的word encoding层（将词表示转化为句表示）
中间层：sentence encoding层（将句表示转化为文档级别的表示）
顶层：分类层，对每个文档给出一个情感标签。

在这里插入图片描述

Word Encoder with Soft Attention

对于每个单词w_i,t，使用学习到的词嵌入矩阵W_e得到词嵌入x_i,t
$x_{i,t} = W_ew_{i,t},\, t\in[1,T]$
为了编码整个词嵌入的序列，用了带有GRU的双向RNN，接受输入x_i,t，输出隐藏层状态 $h_{i,t} = [\stackrel{\rightarrow}{h}_{i,t},\stackrel{\leftarrow}{h}_{i,t}]$ ,方括号中前者是前向RNN生成的，后者是后向RNN生成的。
$h_{i,t} = Bi-RNN(x_{i,t})$
对于句子表示来说，每个词的作用不一样，所以我们用soft attention。其中U随机初始化，得到了最终的句表达 $s_i$