MixFormer步骤流程概述

参考图

Stage1

1、 输入:模板,在线模板,搜索三组图像

2、为每个输入添加位置编码

(实际上是nn.Conv2d( 通道3->64, 卷积核大小(7, 7), 步长(4, 4), 填充(2, 2))的卷积操作,然后归一化)

3、模板,在线模板和搜索做拼接(以组和通道做高宽,以原始的(w,h)拉伸作为拼接的通道)

4,然后进入block

        4.1、Norm归一化

        4.2、进入Att模块

                4.2.1、 生成q, k, v = self.forward_conv(x, t_h, t_w, s_h, s_w)

                        生成步骤是将模板在线模板通过一个卷积和归一化层,然后以(bach,(h*w),c)格式输出,其中k和v的尺寸是变小了的,将模板,在线模板和搜索的q,k,v以在h*w维度上拼接。然后再将q,k,v过一个线性层,然后将q,k,v分为模板+在线模板,搜索两组

                4.2.2、transformer

                        模板进行transformer中的自注意力,搜索组以搜索部分的q和所有(包括模板,在线模板和搜索的k,v)做互注意力,然后再将两组重新拼接在一起,过个线性层

        4.3,将所得的注意力结果与block的原始输入相加

        4.4,这里还有个操作在论文中没有体现,就是最后的输出还过了一个MLP结构并和自身相加

5.然后将模板,在线模板,搜索图像分开

Stage2,Stage3

就是stage1的重复,但Stage2中block会重复4次,Stage3中block会重复16次

预测头

角位预测,giou,iou和L1作为损失

MixFormer(论文解读与代码讲解)1_爱吃糖葫芦的大熊的博客-CSDN博客论文地址,代码地址动机:打破CNN做backbone的僵局。贡献:1、依靠迭代的混合注意力机制(MAM)设计端到端的跟踪模块,可以代替CNN实现特征的提取,可以代替互相关操作实现模板与搜索图像之间的关联。2、在MAM中设计了一个定制的非对称关注作用于在线模板更新,,并提出了一个有效的评分预测模块来选择高质量的模板。3、性能优异Mixed Attention Module (MAM)...https://blog.csdn.net/dhdhhy/article/details/124429938?spm=1001.2014.3001.5502

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值