链接:http://www.public.asu.edu/~cbaral/papers/2018-aaai-psl.pdf
概述
视觉问答(Visual Question Answering)现有两大类主流的问题, 一是基于图片的视觉问答(ImageQuestion Answering), 二是基于视频的视觉问答( Video Question Answering).而后者在实际处理过程中, 常常按固定时间间隔取帧,将视频离散化成图片(frame)的序列,剔除大量冗余的信息, 以节省内存.
当前视觉问答的研究主要关注以下三个部分:
延续自然语言处理中, 对注意力机制(Attention Mechanism) 和记忆网络(Memory Network) 的研究,旨在通过改进二者提高模型对文本和图像信息的表达能力,通过更丰富的分布式表示来提升模型的精度.另一方面,也可以视作是对神经计算机(Neural Machine) 其中键值模块(Key-value, 对应注意力)和缓存模块(Cache