(七十二):Dual-Level Collaborative Transformer for Image Captioning
- 出处:The Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21)
- 代码:https://github.com/luo3300612/image-captioning-DLCT
- 题目:用于图像字幕的双级协作变压器
- 主要内容:我们提出了一种用于图像字幕的区域和网格特征互补的双层协同变压器。该模型通过综合关系注意(Comprehensive Relation Attention, CRA)和双向自我注意(Dual-Way Self Attention, DWSA)的层内融合,综合了区域和网格的外观特征和几何特征。提出了一种基于局部约束交叉注意(Locality- Constrained Cross Attention, LCCA)的几何对齐图,有效地增强了两种特征,解决了两种特征直接融合产生的噪声问题。
- 存在问题:目标检测网络提取的描述区域特征在近年来的图像标题处理中发挥了重要作用。然而,它们仍然因缺乏上下文信息和细粒度细节而受到批评,而这恰恰是传统网格特征的优点。
- 本文提出了一种用于图像字幕的区域和网格特征互补的双层协同变压器。通过CRA和QWSA层内融合,综合了区域和网格的外观特征和几何特征。并提出了基于LCCA的几何特征,有效地增强了两种特征,解决了两种特征直接融合产生的噪声问题。