(七十二):Dual-Level Collaborative Transformer for Image Captioning

文章提出了一种双级协同变压器(DLCT)网络,结合区域和网格特征,通过综合关系注意(CRA)和双向自我注意(DWSA)层内融合,以及局部约束交叉注意(LCCA)解决特征融合噪声问题。DLCT在MS-COCO数据集上取得最佳性能,验证了其在图像字幕任务中的优势。
摘要由CSDN通过智能技术生成

  • 出处:The Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21)
  • 代码:https://github.com/luo3300612/image-captioning-DLCT
  • 题目:用于图像字幕的双级协作变压器
  • 主要内容:我们提出了一种用于图像字幕的区域和网格特征互补的双层协同变压器。该模型通过综合关系注意(Comprehensive Relation Attention, CRA)和双向自我注意(Dual-Way Self Attention, DWSA)的层内融合,综合了区域和网格的外观特征和几何特征。提出了一种基于局部约束交叉注意(Locality- Constrained Cross Attention, LCCA)的几何对齐图,有效地增强了两种特征,解决了两种特征直接融合产生的噪声问题
  • 存在问题:目标检测网络提取的描述区域特征在近年来的图像标题处理中发挥了重要作用。然而,它们仍然因缺乏上下文信息和细粒度细节而受到批评,而这恰恰是传统网格特征的优点。
  • 本文提出了一种用于图像字幕的区域和网格特征互补的双层协同变压器。通过CRA和QWSA层内融合,综合了区域和网格的外观特征和几何特征。并提出了基于LCCA的几何特征,有效地增强了两种特征,解决了两种特征直接融合产生的噪声问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值