VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文解读

VistaNet是一种利用文本和视觉信息进行情感分析的网络结构,通过视觉方面注意力机制强化文本中的关键部分,提高饭店评论等场景的情感分类准确性。
摘要由CSDN通过智能技术生成

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis

Abstract

检测一个文档表达出来的情感对于很多应用都是一个关键任务,比如给用户偏好建模、检测顾客行为、评估产品质量等。传统上,情感分析主要依赖文本内容。手机通常是人们手中唯一的相机,受此驱使,网络上的内容(点评,博客、推特)变得越来越多模式,也就是说文本内容加上照片。问题随之而来,这些视觉成分可不可以对情感分析有帮助呢?我们提出了Visual Aspect Attention Network(VistaNet),利用了文本和视觉成分。我们发现在许多情况下,图片对于文本起到了支持性作用,强调了文本实体中的显著部分,而不是独立于文本来表达情感。因此,我们不用视觉信息作为特征,VistaNet利用attention机制将视觉信息作为可以来指明文档中重要句子的对齐手段。与视觉特征和文本attention相比,在饭店评论上的实验显示出采用视觉方面的attention更有效果。

Introduction

在大网络时代,人们越来越依赖于评价软件,比如吃饭前都会去研究评论。

所以情感分析很重要。(文本分类;文本特征和监督学习;DNN)

文本中不同的部分对于情感分析贡献不一样。

Problem

现在的评价内容不止有文本,还有图像、音频、视频。

这里我们专注于图片

Contributions

  1. 首先将图片作为文本分析的attention
  2. 提出VistaNet,将视觉信息作为句子级别的对齐
  3. 在Yelp饭店评论上做实验,效果好,并且可以延伸到其他带有图片的文档。

VistaNet网络结构

文档集C,包含若干文档c。每个文档包含L个句子si(i从1到L)和M个图片aj(j从1到M)。每个句子si里包含T个单词(wi,1,wi,2……wi,T)。

整个结构分为三层:

  1. 底层:用soft attention的word encoding层(将词表示转化为句表示)
  2. 中间层:sentence encoding层(将句表示转化为文档级别的表示)
  3. 顶层:分类层,对每个文档给出一个情感标签。

在这里插入图片描述

Word Encoder with Soft Attention

对于每个单词wi,t,使用学习到的词嵌入矩阵We得到词嵌入xi,t
x i , t = W e w i , t ,   t ∈ [ 1 , T ] x_{i,t} = W_ew_{i,t},\, t\in[1,T] xi,t=Wewi,t,t[1,T]
为了编码整个词嵌入的序列,用了带有GRU的双向RNN,接受输入xi,t,输出隐藏层状态 h i , t = [ h → i , t , h ← i , t ] h_{i,t} = [\stackrel{\rightarrow}{h}_{i,t},\stackrel{\leftarrow}{h}_{i,t}] hi,t=[hi,t,hi,t],方括号中前者是前向RNN生成的,后者是后向RNN生成的。
h i , t = B i − R N N ( x i , t ) h_{i,t} = Bi-RNN(x_{i,t}) hi,t=BiRNN(xi,t)
对于句子表示来说,每个词的作用不一样,所以我们用soft attention。其中U随机初始化,得到了最终的句表达 s i s_i si
u i , t = U T t a n h (

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值