Paper速读-[Visual Prompt Multi-Modal Tracking]-Dlut.edu-CVPR2023

QuanHaHQuan

已于 2024-06-04 22:05:18 修改

阅读量1.2k

点赞数 23

分类专栏： Paper Sharing Blog 文章标签： prompt 深度学习人工智能神经网络

于 2024-06-04 19:01:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_h_q_/article/details/135264884

版权

文章目录

简介
关于具体的思路
问题描述
- 算法细节
实验结果
- 模型的潜力
- 模型结果

论文链接：Visual Prompt Multi-Modal Tracking

开源代码：Official implementation of ViPT

简介

这篇文章说了个什么事情呢，来咱们先看简单的介绍图
在这里插入图片描述
简单来说，这篇文章主要干了这么一个事情：
以前的多模态呢，都是直接提取特征然后拼接到一起。这个文章不一样，我把所有的模态分开主次，其中只有一个主要模态，剩下的都是附加的。这些附加的模态可就不要再提取特征了，而是通过他们来提取prompt出来。并且使用这些prompt来帮助我的模型更好的在主要模态上提取特征。除此之外，还有一个不一样的点就是在主要模态上提取特征的时候，backbone，这里叫fundation model的模型参数是不更新的。
OK，你已经看完这篇文章了。。当然啦，如果还想知道知道更多的技术细节，咱们接着往下看。

关于具体的思路

咱们来看第二张图，模型的详细介绍
在这里插入图片描述
这个图其实画的很好，过程非常直观。接下来咱们只需要展开说说其中的细节就可以了

问题描述

首先，我们想要得到的是追踪器，单模态的方法中，假如说叫做 $F_{RGB} : \{X_{RGB}, B_0\} \rightarrow B$ ，那么 $B$ 就是目标的box， $B_0$ 就是这个框的初始值， $X_{RGB}$ 就是需要搜索的帧。那么接下来，在多模态的方法中，加入了一个啥呢

最低0.47元/天解锁文章

博客等级

码龄5年

54
原创

216
点赞

395
收藏

168
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: ML-ImportError: cannot import name ‘complete_to_chordal_graph‘解决

下一篇：: YOLO系列模型 pt文件转化为ONNX导出

最新评论

数据结构 8.一元多项式相乘
高子最棒！: 好嘞，感谢，我再想一想
数据结构 8.一元多项式相乘
QuanHaHQuan: 大概是这么个意思
数据结构 8.一元多项式相乘
QuanHaHQuan: 这个作用简单来说，就是记录一个插入起点：在乘法计算中，每次计算 p1 和 p2 的系数相乘后生成一个新的节点 pnew。接下来需要将这个新节点插入到结果链表 head3 中，且必须保证链表中的节点按照指数递增的顺序排列。在插入之前，程序需要从链表的某个位置开始查找合适的插入位置。start 变量用于记录链表的当前插入起点，避免每次都从 head3 的头部重新开始搜索。通过将 start 逐渐更新为上次的插入点，下一次的查找可以从这个插入点之后继续，从而减少了不必要的遍历。当找到一个合适的插入点后，start 会被更新为当前插入点的前驱节点（即 p3_pre）。这意味着下次插入时，查找过程不需要从链表头部重新开始，可以直接从上一次的插入点继续。这在多项式乘法时，特别是当指数逐渐增大时，极大地提升了性能，因为多项式项的指数一般是递增的。
数据结构 8.一元多项式相乘
QuanHaHQuan: 我想想怎么给你解释下哈
数据结构 8.一元多项式相乘
高子最棒！: 哥，想问一下，strat在这个循环里面有什么作用，想半天了想不通

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。