MixFormer步骤流程概述

最新推荐文章于 2024-04-20 09:43:43 发布

爱吃糖葫芦的大熊

最新推荐文章于 2024-04-20 09:43:43 发布

阅读量1.6k

点赞数 1

文章标签：深度学习 cnn 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dhdhhy/article/details/124896466

版权

参考图

Stage1

1、输入：模板，在线模板，搜索三组图像

2、为每个输入添加位置编码

（实际上是nn.Conv2d( 通道3->64, 卷积核大小(7, 7), 步长(4, 4), 填充(2, 2)）的卷积操作，然后归一化）

3、模板，在线模板和搜索做拼接（以组和通道做高宽，以原始的（w，h）拉伸作为拼接的通道）

4，然后进入block

4.1、Norm归一化

4.2、进入Att模块

4.2.1、生成q, k, v = self.forward_conv(x, t_h, t_w, s_h, s_w)

生成步骤是将模板在线模板通过一个卷积和归一化层，然后以（bach,(h*w),c）格式输出，其中k和v的尺寸是变小了的，将模板，在线模板和搜索的q，k，v以在h*w维度上拼接。然后再将q,k,v过一个线性层，然后将q，k，v分为模板+在线模板，搜索两组

4.2.2、transformer

模板进行transformer中的自注意力，搜索组以搜索部分的q和所有（包括模板，在线模板和搜索的k，v）做互注意力，然后再将两组重新拼接在一起，过个线性层

4.3，将所得的注意力结果与block的原始输入相加

4.4，这里还有个操作在论文中没有体现，就是最后的输出还过了一个MLP结构并和自身相加

5.然后将模板，在线模板，搜索图像分开

Stage2，Stage3

就是stage1的重复，但Stage2中block会重复4次，Stage3中block会重复16次

预测头

角位预测，giou，iou和L1作为损失

MixFormer（论文解读与代码讲解）1_爱吃糖葫芦的大熊的博客-CSDN博客论文地址，代码地址动机：打破CNN做backbone的僵局。贡献：1、依靠迭代的混合注意力机制（MAM）设计端到端的跟踪模块，可以代替CNN实现特征的提取，可以代替互相关操作实现模板与搜索图像之间的关联。2、在MAM中设计了一个定制的非对称关注作用于在线模板更新，，并提出了一个有效的评分预测模块来选择高质量的模板。3、性能优异Mixed Attention Module (MAM)...https://blog.csdn.net/dhdhhy/article/details/124429938?spm=1001.2014.3001.5502

爱吃糖葫芦的大熊

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
4
评论
MixFormer步骤流程概述

参考图Stage11、输入：模板，在线模板，搜索三组图像2、为每个输入添加位置编码（实际上是nn.Conv2d( 通道3->64, 卷积核大小(7, 7), 步长(4, 4), 填充(2, 2)）的卷积操作，然后归一化）3、模板，在线模板和搜索做拼接（以组和通道做高宽，以原始的（w，h）拉伸作为拼接的通道）4，然后进入block4.1、Norm归一化4.2、进入Att模块 4.2.1、 ...
复制链接

扫一扫

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。