[AAAI 2022] TransFG: A Transformer Architecture for Fine-grained Recognition

TransFG Architecture

在这里插入图片描述

  • Overlapping patch split:ViT 是把图片分成一系列不重叠的 patches,作者认为这可能会破坏 discriminative regions. 为了解决上述问题,作者提出使用 Overlapping patch split,划分的 patch 数 N N N
    在这里插入图片描述其中, P P P 为 patch 大小, S S S 为步长
  • Part Selection Module:FGVC 需要模型精准定位出图像中用来区分相似类别的 discriminative regions. 如下图所示,模型需要关注到鸟的眼睛以及喉咙才能对它们进行正确分类。CNN 架构的网络常用 RPN 或是弱监督分割算法来解决这一问题
    在这里插入图片描述而作者认为,ViT 的多头自注意力机制就已经可以很好地帮助模型区分出显著特征区域了。假设有 L L L 个 Transformer 层,注意力头数为 K K K,batch size 为 b s bs bs,图像的分块数为 p p p,作者将前 L − 1 L-1 L1 层的注意力矩阵 a l ∈ R b s × K × ( p + 1 ) × ( p + 1 ) a_l\in\R^{bs\times K\times (p+1)\times(p+1)} alRbs×K×(p+1)×(p+1) ( ( p + 1 ) × ( p + 1 ) (p+1)\times(p+1) (p+1)×(p+1) 是 [CLS] 和各个 patch 之间的注意力矩阵) 用矩阵乘积相乘来融合前 L − 1 L-1 L1 层的的注意力权重信息
    在这里插入图片描述其中 a f i n a l ∈ R b s × K × ( p + 1 ) × ( p + 1 ) a_{final}\in\R^{bs\times K\times (p+1)\times(p+1)} afinalRbs×K×(p+1)×(p+1). 然后作者根据每个 head 内 [CLS] 和各个 patch 的注意力权重来选择 K K K 个显著特征区域 (疑问:这个选择的过程是不可导的,因此是不会被优化的,但是直接把所有注意力矩阵乘起来有很高的可解释性吗?这一点作者没有做出详细的解释),例如对于样本 i i i 的 head j j j,选取出的显著特征区域索引为 torch.max ( a f i n a l [ i , j , 0 , 1 : ] , dim = − 1 ) [ 1 ] \text{torch.max} (a_{final}[i,j,0,1:], \text{dim}=-1)[1] torch.max(afinal[i,j,0,1:],dim=1)[1]. 对于每个样本,最终可以选出 K K K 个显著特征区域。作者最终只将选出的 K K K 个 patch 和 [CLS] 输入最后一个 Transformer 层得到最终的预测结果
  • Contrastive Feature Learning:
    在这里插入图片描述其中,为了防止对比损失项被简单负样本 (相似度较小的负样本对) 淹没,作者加入了阈值 α = 0.4 \alpha=0.4 α=0.4,只有当负样本对的相似度大于 α \alpha α 才会计算其对比损失
  • Total loss
    在这里插入图片描述

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


Ablation Study

  • Influence of image patch split method.
    在这里插入图片描述
  • Influence of Part Selection Module.
    在这里插入图片描述
  • Influence of contrastive loss.
    在这里插入图片描述在这里插入图片描述

在这里插入图片描述

在可视化 selected top-4 token positions 时,作者将 patch 位置不变,大小放大了一倍

References

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。在编写C程序时,需要注意变量的声明和定义、指针的使用、内存的分配与释放等问题。C语言中常用的数据结构包括: 1. 数组:一种存储同类型数据的结构,可以进行索引访问和修改。 2. 链表:一种存储不同类型数据的结构,每个节点包含数据和指向下一个节点的指针。 3. 栈:一种后进先出(LIFO)的数据结构,可以通过压入(push)和弹出(pop)操作进行数据的存储和取出。 4. 队列:一种先进先出(FIFO)的数据结构,可以通过入队(enqueue)和出队(dequeue)操作进行数据的存储和取出。 5. 树:一种存储具有父子关系的数据结构,可以通过中序遍历、前序遍历和后序遍历等方式进行数据的访问和修改。 6. 图:一种存储具有节点和边关系的数据结构,可以通过广度优先搜索、深度优先搜索等方式进行数据的访问和修改。 这些数据结构在C语言中都有相应的实现方式,可以应用于各种不同的场景。C语言中的各种数据结构都有其优缺点,下面列举一些常见的数据结构的优缺点: 数组: 优点:访问和修改元素的速度非常快,适用于需要频繁读取和修改数据的场合。 缺点:数组的长度是固定的,不适合存储大小不固定的动态数据,另外数组在内存中是连续分配的,当数组较大时可能会导致内存碎片化。 链表: 优点:可以方便地插入和删除元素,适用于需要频繁插入和删除数据的场合。 缺点:访问和修改元素的速度相对较慢,因为需要遍历链表找到指定的节点。 栈: 优点:后进先出(LIFO)的特性使得栈在处理递归和括号匹配等问题时非常方便。 缺点:栈的空间有限,当数据量较大时可能会导致栈溢出。 队列: 优点:先进先出(FIFO)的特性使得
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 该资源内项目源码是个人的课程设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting是一篇2021年发表在AAAI会议上的论文,它提出了一种名为Informer的方法,用于解决长时间序列预测的问题。\[2\]这篇论文的目标是在长时间序列预测中提高预测能力并提高效率。传统的Transformer方法在长时间序列预测上存在一些局限性,而Informer通过引入一些新的机制来克服这些局限性。\[3\]具体来说,Informer采用了一种多层次的注意力机制,以便更好地捕捉长时间序列中的依赖关系,并引入了一种自适应长度的编码器和解码器,以提高对长序列的建模能力。通过这些改进,Informer在长时间序列预测任务上取得了更好的效果。 #### 引用[.reference_title] - *1* *3* [Informer: Beyond Efficient Transformer for Long SequenceTime-Series Forecasting](https://blog.csdn.net/lwera/article/details/127389652)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Informer:超越Transformer的长时间序列预测模型](https://blog.csdn.net/zuiyishihefang/article/details/123437169)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值