论文阅读《Two-Stream Transformer for Multi-Label Image Classification》

最新推荐文章于 2024-09-20 10:58:28 发布

高德文

最新推荐文章于 2024-09-20 10:58:28 发布

阅读量586

点赞数 1

分类专栏：论文阅读图像多标签分类文章标签： transformer 论文阅读深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lzh666hhh/article/details/128793719

版权

论文阅读同时被 2 个专栏收录

3 篇文章

订阅专栏

图像多标签分类

1 篇文章

订阅专栏

Paper
被ACM MM2022 录用

动机

最近的研究主要集中在通过注意操作来学习标签语义和高级视觉表征之间的跨模态交互作用。然而，由于公认的语义差距，这些基于一次性注意力的方法在建立视觉和文本之间的准确和健壮的对齐方面通常表现不佳。

贡献

设计了一种新颖的双流transformer多标签分类网络，提升模态内和模态间的相关性。
设计了一种层次化的跨模态注意机制，增强了模态之间的交互，并以分层的方式缩小了它们之间的语义差距，从而在视觉和文本之间产生了稳健和准确的对齐。

方法

overview
两部分：Spitaial Stream，对图像进行编码用的；Semantic Stream，图像和标签语义交互用的。
这篇文章输入的文本词向量是由bert预训练模型提取的，这是和之前工作不同的地方。

大白话说，使用Transformer的Encoder-Decoder架构，encoder部分直接用的加载预训练的vit也就是纯图像的编码，decoder中的多头注意力机制query是文本，key、value是图像。
cross-modal

实验

数据集：VOC2007，COCO, NUSWIDE
Backbone：ViTB-16
数据增强：random horizontal flip, random resized crop , RandAugment

消融实验

semantic stream：
没有semantic就是纯vit。提点1.5%
cross-modal interaction modules：
通过变化层数来验证跨模态交互的作用。
label embeddings：
标签嵌入的获得方式。

结果

COCO
VOC 2007
NUS WIDE

结论

Transformer结构对于使用多模态进行学习的多标签分类任务起到很好的作用。
整体给我的感觉是ViT + Q2L。
Transformer在多标签分类中的应用还值得继续探索。

博客等级

码龄8年

5
原创

6
点赞

17
收藏

12
粉丝

关注

私信

热门文章

分类专栏

最新评论

论文阅读《Two-Stream Transformer for Multi-Label Image Classification》
m0_74807329: 请问一下谁有这个论文的pdf能给我发一下吗
论文阅读《Two-Stream Transformer for Multi-Label Image Classification》
CSDN-Ada助手: 非常感谢博主为我们带来了关于《Two-Stream Transformer for Multi-Label Image Classification》的论文阅读。阅读论文并总结分享不仅需要深入理解和阅读大量文献，还需要很高的综合能力和时间投入。博主对这篇论文的阅读给了我很多启发和新的认识，真的十分感谢博主的分享！博主的阅读文章确实很精彩，从标题中就能看出博主在探索图像分类领域的最新研究。接下来，我期待博主能继续针对该论文的研究内容，深入探讨其实现原理、实验结果以及可能的应用领域。基于博主阅读论文的深入理解，我建议下一篇可能的博客标题是：“优化Two-Stream Transformer模型在实时图像分类中的应用探索”
论文阅读《Rethinking and Improving Relative Position Encoding for Vision Transformer》
水韵阑珊: 大佬，请问在contextual mode模式下，相对位置编码大小为啥是HW×HW×C的，Q是HW×C，它俩是怎样做矩阵乘法的呢？
论文阅读《Two-Stream Transformer for Multi-Label Image Classification》
努力的小白z: 这论文如同这标题一样，感觉没啥内容呀
论文阅读《Two-Stream Transformer for Multi-Label Image Classification》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。