wang15771397344-CSDN博客

原创 vision_note01

所以应该把它的直⽅图做⼀个横向拉伸（如下图），就可以扩⼤图像像素值的分布范围，提⾼图像的对⽐度，这就是直⽅图均衡化要做的事情。所谓的模板匹配，就是在给定的图⽚中查找和模板最相似的区域，该算法的输⼊包括模板和图⽚，整个任务的思路就是按照滑窗的思路不断的移动模板图⽚，计算其与图像中对应区域的匹配度，最终将匹配度最⾼的区域选择为最终的结果。因为开运算带来的结果是放⼤了裂缝或者局部低亮度的区域，因此，从原图中减去开运算后的图，得到的效果图突出了⽐原图轮廓周围的区域更明亮的区域，且这⼀操作和选择的核的⼤⼩相关。

2023-09-05 10:37:03 131

原创目标跟踪教程

KCF:CSK基础上将原来的灰度特征扩展为31维的fHOG特征，相比与灰度特征、CN特征，目标表达与精度上、更好地反映纹理与形状，引入核函数技巧，将原始不可分的空间，映射到高维可分空间，增加样本的可分性，依然可以转换到频域计算。高斯核函数，速度要慢一些。siamrpn:参考fast-rcnn、ssd、yolo，回归目标位置，省掉多尺度测试，提升算法性能的同时提高算法的跟踪速度。CN:Color Names特征替换原来的灰度特征，11个特征PCA降维-》2通道，进一步提高精度，速度有所下降。

2023-08-28 15:13:55 224

原创 Unsupervised Domain Adaptation for Nighttime Aerial Tracking

无监督域适应的夜间空中跟踪 + 夜间跟踪 benchmark。

2023-08-24 00:46:38 213

原创 Unified Transformer Tracker for Object Tracking

核心：联合单目标和多目标跟踪。

2023-08-24 00:34:00 181

原创 Transforming Model Prediction for Tracking

基于优化的跟踪方法取得了广泛的成功，其通过最小化目标函数来优化一个目标模型预测模块 (target model prediction module)，从而提供有效的全局推理。但是这种方式会产生严重的归纳偏差，限制了网络的表达能力。本文提出一种基于 Transformer 的模型预测模块。Transformer 以很小的归纳偏差捕获全局关系，使其能够学习更强大的目标模型预测。

2023-08-24 00:18:38 155

原创 MixFormer: End-to-End Tracking with Iterative Mixed Attention

核心：用 transfrom 架构整合特征提取和特征融合主流的跟踪框架分三步：特征提取、特征融合、预测头分类回归其中特征融合是关键，下图展示了不同的融合方法。（摘自解决方案：提出一个通用的 transformer 结构同时进行特征提取和特征融合。

2023-08-23 23:46:31 334

原创 SBT: Correlation-Aware Deep Tracking

切入点：鲁棒性和判别性都很重要现有问题：孪生网络无法判别性的建模目标和干扰提出新方法：target-dependent feature network做法：通过 attention，将跨图像的特征相关性嵌入特征网络的多个层中。在多个层进行匹配，压制非目标特征，得到实例感知的特征提取；输出的搜索特征可以直接用于预测定位，无需互相关操作；可以在大量不成对数据上预训练，加速收敛。

2023-08-23 23:27:20 220

原创轻量化目标跟踪

近些年的目标跟踪算法都在往做大做强的方向发展，比如更深的网络和更复杂的模块。尽管性能越刷越高，但是却很少考虑效率问题，以至于几乎无法在边缘设备上实时运行部署，实用性较低，因此研究轻量化的目标跟踪算法是非常必要的（另外一个原因也可能是做大做强上能水论文的点越来越不好找了 / 狗头保命）。本篇博客总结了三篇最近研究跟踪模型轻量化的工作。

2023-08-23 20:43:20 597

原创 Explicitly Modeling the Discriminability for Instance-Aware Visual Object Tracking

作者认为当前方法的局限在于，跟踪目标的特征仅被表达学习，而没有做判别性的建模（即网络只学会了如何从表观上描述一个目标的特征，但并未学到不同目标特征之间的差异）。上面介绍的对比学习框架中的 loss 是比较不同实例之间的相似性，但输入是完整的图片，因此下面我们来看如何将输入的图片转化成实例的概念，即 instance boosting module。是公式 5 的实例分类损失。作者提出了两种不同粒度的实例的概念，包括视频级别的实例 (IAT-V) 和对象级别的实例 (IAT-O)，如图 3 所示。

2023-08-23 20:10:50 51

原创 Siamese Transformer Pyramid Networks for Real-Time UAV Tracking

图 2c 为本文提出的框架，注意作者没有直接迁移复杂的 transformer 编码器和解码器结构，而是利用编码器设计了基于注意力的特征金字塔融合网络来更有效地学习 target-specific 的模型。特征提取网络输出 stage 3，4，5 降采样倍数分别为 8，16，32 倍的特征，然后将模板和搜索特征分别送入 Transformer Pyramid Network (TPN) 进行特征融合，将融合后的特征进行互相关。三个尺度的输出直接相加然后送入两个自注意力的 PAB 中，得到最终的语义特征。

2023-08-23 19:48:02 150

原创 RPT++: Customized Feature Representation for Siamese Visual Tracking

Extreme pooling 就是为了解决这一问题，具体来说，既然我们已经得到了每个边界极值点的不确定性，那么提取边界特征时就不用局限仅提取该点的特征，而是可以提取该点附近的一个不确定性区域的特征，这样可以更好地描述目标边界。如上面图 1 介绍的，从语义关键点提取的特征为分类提供了更具判别力的视觉模式，而边界附近的特征编码了关于空间范围的先验知识，有助于准确估计目标状态。出发点是现有的跟踪方法对于分类和回归使用的是同一套特征，而作者指出这两个任务是有差异的，因此对特征的需求也是不同的。

2023-08-23 19:22:34 87

原创 Saliency-Associated Object Tracking

PPFM 和 base model 的对比证明建模模板和搜索图像之间的相似性是有益的，PAM 和 PPFM 的对比证明将匹配的局部进行关联是有益的；然后，Saliency-Association Modeling module 将捕获的显著点进行关联，以学习模板和搜索图像之间的有效全局相关性表示。的大小是预定义的固定值，作者认为这样定义是不合理的，因为没有考虑响应图的分布。然后构建图的边，如图 5 所示，包括两种类型，一种是对显著点之间进行连接，另一种是对每个点和其邻域点进行连接，边的集合定义为。

2023-08-23 18:59:21 119

原创 Learn to Match: Automatic Matching Network Design for Visual Tracking

本文聚焦于孪生跟踪算法的匹配过程，目前主流的互相关操作是启发式设计的，严重依赖人工经验，并且单一的匹配方法无法适应各种复杂的跟踪场景。训练过程分成匹配网络的搜索和新跟踪器的训练两个阶段，第一阶段用 Bilevel Optimization 搜索最优的匹配网络组合，第二阶段用优化的匹配网络构建一个新的跟踪器进行常规的训练。因此，作者接下来提出一种自适应学习的自动选择和组合匹配算子的方法。对于单一的匹配算子，除了 6 和 7，其他的均取得了和 dw-corr 相当的性能，甚至 2（直接拼接）的性能更好。

2023-08-23 18:17:53 161

原创 HiFT: Hierarchical Feature Transformer for Aerial Tracking

图 5 中 OT 表示标准 transformer 结构，FT 表示用特征取代解码器中的 object query，PE 表示在解码输入中加入位置编码，RL 表示在 GT 的矩形框内采样正样本（本文用的椭圆采样策略）。现有的孪生跟踪算法大多是基于相似得分图对目标对象进行分类和回归，使用单一的相似图会降低复杂场景下的定位精度，而像 SiamRPN++ 那样单独使用多个相似图分别进行预测又会引入较大计算负担，不适用于移动设备。transformer 的输入是三层不同尺度的互相关相似图，如公式 1 所示。

2023-08-23 16:39:34 270

原创 Domain Adaptive SiamRPN++ for Object Tracking in the Wild

SDA 将（不同域的）跟踪目标的特征表达对齐，以消除语义级的域偏移。由于不同域的类别、视角和姿态的变化，跟踪目标会发生明显的变化，SDA 强制跟踪目标的特征表示在语义上是域不变的。基于孪生网络的跟踪算法均假定训练和测试数据遵循相同的分布，然而在正常图像上训练的跟踪器并不能保证在其他领域的数据上（如雨雾天气的序列）也表现良好，即存在域偏移（domain shift）问题，如图 1 和图 2。上面 PDA 解决天气或光照引起的全局域偏移，但不同域的目标还存在外观和类别的变化，因此还需要考虑目标语义的域偏移。

2023-08-23 16:21:39 97

原创 Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking

在遮挡、运动模糊和背景杂波的测试序列上，cutout, blur, 和 similar-patch paste 在 SS+Su 模式下的提升甚至超过单独 SS 模式下的提升，说明这些场景的标注数据很少。作者做了两组实验分析每种变换的作用，第一组在只有 shift 变换的 baseline1 上添加一个变换来显示性能增益，第二组从使用所有变换的 baseline2 中删除一个变换来呈现性能下降。本文的实验非常充分，对比了不同的跟踪器，不同的数据变换方式，训练的数据量，以及和有监督方式的结合等。

2023-08-23 15:58:34 60

原创强化学习在目标跟踪中的应用

强化学习讨论的问题是智能体 (agent) 如何在一个复杂不确定的环境 (environment) 里去最大化它能获得的奖励。今天介绍三篇关于强化学习在目标跟踪中的工作，分别利用强化学习来决策使用的特征，多个跟踪器的切换以及是否更新模板。

2023-08-23 15:33:11 865

原创 SiamRCR: Reciprocal Classification and Regression for Visual Object Tracking

本文解决的是老生常谈的分类和回归不匹配的问题。作者提出在分类和回归之间建立的连接，可以动态地重新加权每个正样本的损失。此外，增加了一个定位分支用于预测定位精度，可以在推理过程中替代回归辅助连接 (regression assistance link)，使得训练和测试更加一致。最终运行速度为 65FPS。首先点出问题，即孪生跟踪架构中分类和回归是分开独立优化的，导致二者不匹配。如图 1 所示，分类得分最高的位置生成的预测框不一定是最好的，或者预测比较好的框分类得分很低。

2023-08-23 14:55:54 75

原创 Siamese Natural Language Tracker: Tracking by Natural Language Descriptions with Siamese Trackers

人类的学习过程是视觉和语言共同作用的，而在基于外观的跟踪过程中引入语言描述同样可以使得跟踪器更加精确、灵活和鲁棒（如图 1 的例子）。因此，本文将孪生跟踪器与语言描述结合，将语言描述编码成一个卷积核嵌入到孪生框架中（SNL-RPN），并将视觉和语言的预测进行动态聚合（Dynamic Aggregation），为 tracking by NL 任务提供了一个新的 baseline。图 8 展示了视觉和语言的分类响应图，NL head 的响应更加准确，可能是由于遮挡阻碍了视觉模型。表示 softmax 函数，

2023-08-23 11:11:00 130

原创 DeepMix: Online Auto Data Augmentation for Robust Visual Object Tracking

对于 SiamRPN++ 和 DSiam，将历史 N=15 帧样本混合成 K=1 个新样本，注意 SiamRPN++ 虽然并没有更新模块，但是 MixNet 也可以混合历史样本输出一个更干净的搜索特征从而促进跟踪。这篇工作的切入点挺新奇的，以往的模型更新都在考虑如何设计更新方法，而本文则关注样本本身，从在线数据增广的角度切入，将历史样本混合生成新的样本用于模型更新。从直观上看，在视频采集过程中，感兴趣的物体可能位于场景中的任何位置，将物体放置在可能的背景区域中来增加训练样本是合理的。

2023-08-23 10:54:32 54

原创 Updatable Siamese Tracker with Two-stage One-shot Learning

为了实现高质量的自适应更新，作者从 one-shot learning 的角度提出一个 two-stage one-shot learner，利用不同阶段的目标样本预测分类器的参数。训练网络时在模板和搜索图像之间的间隔图像中额外扣一个更新样本，并且计算损失分别考虑了模板样本 - 搜索样本，更新样本 - 搜索样本，融合模板样本 - 搜索样本三方面损失，如图 3 所示。而一些像 updatenet 采用网络进行自适应更新的方法，其更新网络和跟踪器在结构上是分离的，不能从联合训练中受益，也不能以最佳方式合作。

2023-08-23 10:36:35 52

wang15771397344的博客

原创 vision_note01

原创目标跟踪教程

原创 Unsupervised Domain Adaptation for Nighttime Aerial Tracking

原创 Unified Transformer Tracker for Object Tracking

原创 Transforming Model Prediction for Tracking

原创 MixFormer: End-to-End Tracking with Iterative Mixed Attention

原创 SBT: Correlation-Aware Deep Tracking

原创轻量化目标跟踪

原创 Explicitly Modeling the Discriminability for Instance-Aware Visual Object Tracking

原创 Siamese Transformer Pyramid Networks for Real-Time UAV Tracking

原创 RPT++: Customized Feature Representation for Siamese Visual Tracking

原创 Saliency-Associated Object Tracking

原创 Learn to Match: Automatic Matching Network Design for Visual Tracking

原创 HiFT: Hierarchical Feature Transformer for Aerial Tracking

原创 Domain Adaptive SiamRPN++ for Object Tracking in the Wild

原创 Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking

原创强化学习在目标跟踪中的应用

原创 SiamRCR: Reciprocal Classification and Regression for Visual Object Tracking

原创 Siamese Natural Language Tracker: Tracking by Natural Language Descriptions with Siamese Trackers

原创 DeepMix: Online Auto Data Augmentation for Robust Visual Object Tracking

原创 Updatable Siamese Tracker with Two-stage One-shot Learning

原创 Learning to Filter: Siamese Relation Network for Robust Tracking

原创 Learning Target Candidate Association to Keep Track of What Not to Track

原创 Real-Time Visual Object Tracking via Few-Shot Learning

原创 STMTrack: Template-free Visual Tracking with Space-time Memory Networks

原创 Transformer 与目标跟踪

原创目标检测框架在目标跟踪中的应用

原创 Anchor Free 的孪生目标跟踪

原创 Deep Meta Learning for Real-Time Target-Aware Visual Tracking

原创 Siam R-CNN: Visual Tracking by Re-Detection

原创相关滤波和孪生网络目标跟踪综述（Martin 团队）

翻译 012.Transforming Model Prediction for Tracking

翻译 StrongSORT:Make DeepSORT Great Again

空空如也

空空如也