CVPR2023 Autoregressive Visual Tracking 理解记录

laizi_laizi

已于 2025-02-20 16:14:22 修改

阅读量3.8k

点赞数 15

分类专栏：目标跟踪文章标签：计算机视觉目标跟踪

于 2023-11-09 11:51:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/laizi_laizi/article/details/134260221

版权

ARTrack code with comments
https://github.com/MIV-XJTU/ARTrack
ARTrack的框架:
在这里插入图片描述

代码训练主要分为两阶段：

第一阶段就是和seqtrack是一样的，就是template和search的图像打成patches送进transformer的encoder和decoder，只不过decoder这里送的query tokens送的是一个[cmd]或者[start] token，然后加x,y,w token, 序列化的顺序预测x,y,w,h目标位置信息，因为在预测x的时候只知道[start] token, 预测y的时候只知道[start] token和x token, 以此类推，所以motivation里面常写，如果模型知道目标在哪里，就能给一个命令就依次把目标的位置读出来。所以并不是给真值预测真值的看似白痴的学习。这里有两点需要注意的:
- 这里的坐标变成token会经过一个word to embedding的过程，实现上来看就是把坐标当做index索引，会有一个embedding vocabulary字典被索引，经过坐标的索引出来的嵌入才会送入decoder里面。这样做的好处论文中解释为: This novel regression avoids direct non-linear mapping from image featur

最低0.47元/天解锁文章

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

laizi_laizi 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。