论文-《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering 》笔记

论文提出了一种结合自底向上和自顶向下注意力机制的方法,用于图像标题生成和视觉问答。通过Faster R-CNN提取图像区域特征,自顶向下机制定义特征权重。这种方法在Image Captioning和VQA任务上取得了最佳结果,增强了注意力权重的可解释性,将对象检测与语言理解相结合。
摘要由CSDN通过智能技术生成

重点翻译拓展

论文下载

主题:

我们提出将自顶向下和自底向上的注意力机制融合起来,从对象层面计算图像的显著区域。

正文:

1.新方法的概要过程:

自底向上机制(基于Faster R-CNN)提取图像区域,每一个区域关联一个特征向量,自顶向下机制定义特征权重(就是该特征的重要程度)。

2.VQA和Image captioning通常使用什么样的方法,有什么缺陷:

VQA和Image captioning通常使用传统的自顶向下注意力机制,将部分完成的字幕输出或者图像相关的问题作为上下文表示。下图左边为传统方法,会将图像分成大小相等的无数格子,没有区分格子的重要程度,右图是该论文提出的方法。

3.Bottom-Up Attention Model:

根据边界框(bounding boxes)定义空间区域,并且使用Faster R-CNN执行自底向上注意力。

4.Faster R-CNN:
Faster- R-CNN作为一个“硬”注意力机制(‘hard’ atten

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值