论文阅读《Two-Stream Transformer for Multi-Label Image Classification》

Paper
被ACM MM2022 录用

动机

  • 最近的研究主要集中在通过注意操作来学习标签语义和高级视觉表征之间的跨模态交互作用。然而,由于公认的语义差距,这些基于一次性注意力的方法在建立视觉和文本之间的准确和健壮的对齐方面通常表现不佳。

贡献

  • 设计了一种新颖的双流transformer多标签分类网络,提升模态内和模态间的相关性。
  • 设计了一种层次化的跨模态注意机制,增强了模态之间的交互,并以分层的方式缩小了它们之间的语义差距,从而在视觉和文本之间产生了稳健和准确的对齐。

方法

  • overview
    两部分:Spitaial Stream,对图像进行编码用的;Semantic Stream,图像和标签语义交互用的。
    这篇文章输入的文本词向量是由bert预训练模型提取的,这是和之前工作不同的地方。
    在这里插入图片描述
    大白话说,使用Transformer的Encoder-Decoder架构,encoder部分直接用的加载预训练的vit也就是纯图像的编码,decoder中的多头注意力机制query是文本,key、value是图像。
    在这里插入图片描述
  • cross-modal在这里插入图片描述

实验

数据集:VOC2007,COCO, NUSWIDE
Backbone:ViTB-16
数据增强:random horizontal flip, random resized crop , RandAugment

消融实验

  • semantic stream:
    没有semantic就是纯vit。提点1.5%
    在这里插入图片描述
  • cross-modal interaction modules:
    通过变化层数来验证跨模态交互的作用。
    在这里插入图片描述
  • label embeddings:
    标签嵌入的获得方式。
    在这里插入图片描述

结果

  • COCO
    在这里插入图片描述
  • VOC 2007
    在这里插入图片描述
  • NUS WIDE
    在这里插入图片描述

结论

Transformer结构对于使用多模态进行学习的多标签分类任务起到很好的作用。
整体给我的感觉是ViT + Q2L。
Transformer在多标签分类中的应用还值得继续探索。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值