论文精读之GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features

疯狂的小强呀

已于 2024-04-21 16:41:00 修改

阅读量767

点赞数 12

分类专栏：人工智能文章标签： transformer 深度学习人工智能图像描述

于 2024-04-21 16:06:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/david_house/article/details/138036305

版权

人工智能专栏收录该内容

19 篇文章 0 订阅

订阅专栏

文章目录

作者创新点
模型架构
未完待续……

时间：2022
paper：https://arxiv.org/pdf/2207.09666v1.pdf
code：https://github.com/davidnvq/grit

在这里插入图片描述

作者创新点

思考依据：
之前的很多图像描述方法都是通过fast-rcnn（作为物体探测器）来提取区域特征，这样的方法存在三个问题：①缺乏上下文信息 ②局部识别不准确 ③计算成本高

作者通过添加基于网格的特征提取以及采用Deformable DETR目标检测的区域特征提取方法解决上述前两个问题

！！！那怎么提取和融合局部物体特征和网格特征呢？
作者提出了一种仅基于transformer的神经网络架构，能够很好的利用这两个特征来生成描述：

用基于 DETR 的方法代替之前模型中基于cnn（比如fast-rcnn）的方法
该模型仅基于transformer并且是端到端训练的，相比于之前的方法取得了一个很好的提高

模型架构

整体架构包含两部分：①特征提取 ②文本生成

（1）根据输入图像提取两种特征

● 原始图像提取：

该部分使用的是swin transformer：为什么使用swin transformer？？？
作者这里给出解释：vit把图像分成小的patches，然后使用全局注意力，对于空间密集任务不适用；目标检测增加了二次计算的复杂度；而swin transformer通过整合支持局部注意力的滑动窗口和减少补丁在一定程度上解决了上述问题

● 局部特征提取：

使用的是 Deformable DETR 模型中的decoder，接受多尺度的图像特征和N个可学习的对象请求作为输入，最终输出一个N×d 维的区域特征
虽然该局部特征提取模型也会作为整个模型的一部分进行训练，但是作者在训练之前进行了预训练和微调，目的是获取更好的视觉语义信息

注： Deformable DETR结合可变形卷积的稀疏空间采样和Transformer的关系建模能力的优点，其注意力模块只关注参考周围的一小组关键采样点，该模块可以自然地扩展到聚合多尺度特征而无需FPN，利用(多尺度)可变形注意模块代替Transformer注意模块处理特征映射。Deformable DETR可以比DETR（尤其是在小物体上）获得更好的性能，训练时间减少了10倍。

● 网格特征提取

采用了具有L个层的标准自注意变压器来提取网格特征

（2）生成文本

解码器用的是transformer解码器，但是在交叉注意力设计上作者尝试了三种方法：
消融实验证明最后一种方法结果最好！
在这里插入图片描述

（3）损失函数

交叉熵损失函数+CIDEr-D优化

未完待续……

疯狂的小强呀

关注

12
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
2
评论
论文精读之GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features

之前的很多图像描述方法都是通过fast-rcnn（作为物体探测器）来提取区域特征，这样的方法存在三个问题：①缺乏上下文信息 ②局部识别不准确 ③计算成本高
复制链接

扫一扫

专栏目录

疯狂的小强呀 CSDN认证博客专家 CSDN认证企业博客

码龄5年

212: 原创

2万+: 周排名

8700: 总排名

57万+: 访问

: 等级

3957: 积分

2229: 粉丝

814: 获赞

153: 评论

2862: 收藏

私信

关注

热门文章

分类专栏

个人总结 11篇
vue 25篇
前端 24篇
大数据 25篇
Python 36篇
算法 7篇
数据科学 3篇
数据库 7篇
C++ 8篇
sklearn 11篇
操作系统 5篇
spark 4篇
数据结构 11篇
计算机组成原理 11篇
Scala 3篇
人工智能 19篇

最新评论

从huggingface上下载数据集具体步骤
疯狂的小强呀: 可能是版本问题，我这边是可以用的
从huggingface上下载数据集具体步骤
小熊爱喝牛奶: huggingface-cli没有download选项：huggingface-cli: error: invalid choice: 'download' (choose from 'env', 'login', 'whoami', 'logout', 'repo', 'lfs-enable-largefiles', 'lfs-multipart-upload', 'scan-cache', 'delete-cache')
bert实现词嵌入及其参数详解
疯狂的小强呀: 一般是所有的都放进去
bert实现词嵌入及其参数详解
weixin_44080856: 您好，我想问一下如果是加载本地模型是把pytorch_model.bin放到目录里就可以了吗，还是要把json文件都放进去？感谢
计算机组成原理之冯诺依曼计算机
做而论道_CS: 键盘、鼠标、扫描仪、打印机、显示器、声卡。。。这一个个的，都是单独的计算机。话筒，才是输入设备；喇叭，才是输出设备。这种教材，纯粹是胡编乱造！这种作者，根本就不懂计算机！　你还是去当幼儿教师吧。

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

疯狂的小强呀 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。