视觉场景理解论文阅读笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

一、文章相关资料

1.论文地址:点击打开链接

2.论文代码:点击打开链接

3.发表时间:2018

二、阅读笔记

1.论文思想

        文章提出一种自上而下与自下而上相结合的注意力模型方法,应用于视觉场景理解和视觉问答系统的相关问题。其中基于自下而上的关注模型(一般使用Faster R-CNN)用于提取图像中的兴趣区域,获取对象特征;而基于自上而下的注意力模型用于学习特征所对应的权重(一般使用LSTM),以此实现对视觉图像的深入理解。

       个人理解:文章中虽然没有提及在目前研究中最为广泛使用的Encode—Decode框架,但是基于自下而上的注意力模型的任务是获取图像兴趣区域提取图像特征类似于对图像进行特征编码,实现编码阶段任务;而基于自上而下的注意力模型用于学习调整特征权重,实现了图像内容的“时刻关注”,逐词生成描述,相当于解码阶段。

2.为什么使用Faster R-CNN 而不使用CNN?

       从图中可以看出使用CNN需要使用比R-CNN更多的特征,而且很多额特征往往是无用的。R-CNN的目标检测方法,首先针对图像获取兴趣区域,然后对每个兴趣区域应用目标检测器,这样就可以准确的获得图像类别;而CNN方法需要输入整幅图像,而且用于大样本分类的网络往往很复杂,计算量更大。另外,Faster R-CNN对之前几代R-CNN方法进行改进,实现了只输入一次就可以识别所有对象的能力,极大的提高的处理效率。

3.自下而上的关注模型

        文中提及使用Faster R-CNN实现基于自下而上的注意力模型,Faster R-CNN论文笔记

        文中提及使用Faster R-CNN实现自下向上的关注模型,从图中可以看出相比之前不同之处在于,通过设定的阈值允许兴趣框的重叠,这样可以更有效的理解图像内容。文中对每一个感兴趣区域不仅使用对象检测器还使用属性分类器,这样可以获得对对象的(属性,对象)的二元描述。这样的描述更加贴合实际应用。

4.自上而下的关注模型

        文中提到使用;两层LSTM模型,一层用于实现自上而下的注意力,一层实现语言模型。

        文章中提到的公式如下:

       这些公式不做详细介绍,具体可以从LSTM相关理论,以及机器翻译中应用注意机制文章中进行理解:将注意力模型引入机器翻译的早期文章

      这里只提及我的一个疑问:的关系,从公式和图出发,我个人将其理解为同一对象的不同表示,应该是为了避免混淆而用两种写法。

5.实验结果

        从实验结果可以看出,文中所提方法的确获得良好结果.

注:本人因基础知识和表达能力的限制,对文章内容理解可能存在偏差,如有错误,请指出。

没有更多推荐了,返回首页