Paper
被ACM MM2022 录用
动机
- 最近的研究主要集中在通过注意操作来学习标签语义和高级视觉表征之间的跨模态交互作用。然而,由于公认的语义差距,这些基于一次性注意力的方法在建立视觉和文本之间的准确和健壮的对齐方面通常表现不佳。
贡献
- 设计了一种新颖的双流transformer多标签分类网络,提升模态内和模态间的相关性。
- 设计了一种层次化的跨模态注意机制,增强了模态之间的交互,并以分层的方式缩小了它们之间的语义差距,从而在视觉和文本之间产生了稳健和准确的对齐。
方法
- overview
两部分:Spitaial Stream,对图像进行编码用的;Semantic Stream,图像和标签语义交互用的。
这篇文章输入的文本词向量是由bert预训练模型提取的,这是和之前工作不同的地方。
大白话说,使用Transformer的Encoder-Decoder架构,encoder部分直接用的加载预训练的vit也就是纯图像的编码,decoder中的多头注意力机制query是文本,key、value是图像。
- cross-modal
实验
数据集:VOC2007,COCO, NUSWIDE
Backbone:ViTB-16
数据增强:random horizontal flip, random resized crop , RandAugment
消融实验
- semantic stream:
没有semantic就是纯vit。提点1.5%
- cross-modal interaction modules:
通过变化层数来验证跨模态交互的作用。
- label embeddings:
标签嵌入的获得方式。
结果
- COCO
- VOC 2007
- NUS WIDE
结论
Transformer结构对于使用多模态进行学习的多标签分类任务起到很好的作用。
整体给我的感觉是ViT + Q2L。
Transformer在多标签分类中的应用还值得继续探索。