「AAAI2021」Image Captioning 图像描述生成，性能SoTA！

最新推荐文章于 2023-12-27 17:56:07 发布

置顶 luputo

最新推荐文章于 2023-12-27 17:56:07 发布

阅读量3.6k

点赞数 18

分类专栏：论文文章标签：深度学习图像描述生成卷积神经网络自然语言处理

本文链接：https://blog.csdn.net/luo3300612/article/details/113447660

版权

论文专栏收录该内容

1 篇文章 0 订阅

订阅专栏

「AAAI2021」Duel-Level Collaborative Transformer for Image Captioning

这里简单介绍自己第一篇被接受的一作工作《Duel-Level Collaborative Transformer for Image Captioning》，代码已开源在这里，小伙伴们快来star~

Image Captioning和VQA是多模态任务中非常相关的两个Task，自从2018年CVPR《Bottom-up and top-down attention for image captioning and visual question answering》（BUTD）提出以来，两个任务一直使用的是BUTD提供的Object Region特征，即第一步，先在VG上训练一个目标检测器，第二步，在COCO图片上以一定的置信度提取出图像上的目标框，第三步，将这些框中的特征作为后续（Image Captioning/VQA）模型的输入。

目标检测器的检测结果

一般来说，为了更多覆盖全图的信息并照顾到目标比较少（甚至没有目标）的图片，这个检测的置信度会设的很低（0.2），导致每张图片实际上有大量目标框（就像上面那张图一样）。尽管如此，这样的特征也远远好于曾经大家使用的End-to-end方法以及ImageNet pretrained模型提出来的特征。

而2020CVPR《In Defense of Grid Features for Visual Question Answering》（IDGF）一文的作者发现，BUTD特征更好的原因主要是使用了VG的标注，从而给图片提供了更好的先验，通过对Detection head的改造，IDGF提取出来的grid特征在后续任务中的表现堪比甚至超过region特征。

看到这里时，我遥想2018年的BUTD，难道多模态任务所使用的特征又要反复横跳了？（2018 grid->region ，2020 region->grid）。

于是我开始思考两个特征各自的优缺点，在实验室老师的帮助下，我们理清了两个特征各自的特点。

region特征是检测出来的目标，这些特征的语义层级相对较高，但它们有两个缺点，一是图像中非目标的区域会被忽视（如背景信息），二是大目标的小细节会被忽视。如下图所示。

Transformer使用的是region特征，而DLCT同时使用region和grid特征
2. grid特征就是Feature map，这个特征的语义层级相对较低，往往一堆网格在一起才能覆盖一个目标，但优点是它能覆盖整张图片，同时也包含了目标的细节信息。

在这里插入图片描述
然后我们可以发现，两个特征各自都有不错的优点，且一方的优点恰能弥补另一方的不足，因此，就有了两类特征协作（Collaborative）互补的雏形。

我们知道，Transformer实际上类似一个图卷积网络，只不过这个图是全连接图，也就是说所有的region和grid之间都会存在信息交互。如此的话，使用两类特征带来的一个问题就是，直接将它们丢进Transformer中，进行self-attention，实际上是低效的，且QKV数量的增多会增大Transformer优化的难度。而通过观察我们发现，实际上很多的特征交互是不必要的。

在这里插入图片描述

在原始的Transformer结构中，猫的白肚皮对应的grid会和各种毫无关系的object（插座、地板）进行信息交互，我们认为这种交互并没有很大的意义，而且，为了贯彻两类特征互补（高-低语义信息交互和细节信息交互）的思路，我们只需要几何位置上相近的特征进行交互即可，因此，我们提出了几何对齐图（Geometric Alignment Graph），将Transformer中的全连接图用几何对齐图替换。

在这里插入图片描述
在几何对齐图的帮助下，两类特征之间的交互变得更加高效，也更加符合我们最初的动机，也带来了性能的提升。

其他伴随的设计请详见我们的论文，最终，我们的模型就长这个样子

在这里插入图片描述
最终的实验结果也非常好，在COCO线上测试中取得了当时（2020年9月-12月末）第一名的成绩

在这里插入图片描述

这就是我人生的第一篇一作会议论文，也是当时切切实实认真了好久准备的工作，但其实也还是有很多瑕疵，贡献有限，大佬们可能觉得会很水，而且reviewer也说文章主体部分有不清楚的地方。不过还是非常高兴能够上岸，真的是运气很好~
非常感谢学长的一路指导和帮助，感谢实验室老师百忙之中帮我改了论文~
最后再次欢迎大家来star和提issue~顺便再求个赞^_
代码开源在这里

luputo

关注

18
点赞
踩
25

收藏

觉得还不错? 一键收藏
6
评论
「AAAI2021」Image Captioning 图像描述生成，性能SoTA！

「AAAI2021」Duel-Level Collaborative Transformer for Image Captioning这里简单介绍自己第一篇被接受的一作工作《Duel-Level Collaborative Transformer for Image Captioning》，代码已开源在这里，小伙伴们快来star~Image Captioning和VQA是多模态任务中非常相关的两个Task，自从2018年CVPR《Bottom-up and top-down attention for
复制链接

扫一扫

专栏目录