![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
论文阅读
文章平均质量分 91
将论文阅读化作习惯
zz的大穗禾
正确而聪明地行动
展开
-
单目标追踪——【Transformer】Autoregressive Visual Tracking
ARTrack 利用目标先前帧的预测位置,建模目标运动信息来辅助当前的目标追踪定位。原本的基于帧的追踪任务(次最优化**)变成了**序列追踪任务(最优化),这一点与目标追踪本身的定义一致。2. 端到端的实现,没有预测头和后置操作。3. 受到Pix2Seq的启发,利用相似的构建离散的坐标体系与Vision feature一同输入后续的Decoder。4. 与先前SwimTrack将目标运动信息作为特征输入Decoder再借助Head输出定位相比,ARTrack 旨在用先前的轨迹教会模型如原创 2023-08-31 13:50:12 · 1062 阅读 · 0 评论 -
单目标追踪——【Transformer】SwinTrack: A Simple and Strong Baseline for Transformer Tracking
1. 以目标检测领域的Swin Transformer为基础,构建全Transformer结构的目标追踪算法——Swin-Track2. 构建了**Motion Token** 在追踪中考虑到了目标运动信息,在增加计算复杂度的情况下提升性能。3. 将原有的Transformer中的absolute位置编码替换成untied positional encoding。4. 用varifocal loss替换交叉熵损失函数。原创 2023-08-29 17:13:42 · 535 阅读 · 0 评论 -
多目标追踪——【两阶段】BoT-SORT: Robust Associations Multi-Pedestrian Tracking
本篇文章的工作是基于ByteTrack改进。主要贡献在于将卡尔曼滤波+相机修正作为目标重识别的运动信息,在用匈牙利匹配过程中,同时加入了外观相似度和运动相似度。原创 2023-03-27 14:51:00 · 1100 阅读 · 1 评论 -
多摄像头多目标追踪——Box-Grained Reranking Matching for Multi-Camera Multi-Target Tracking
文中的追踪框架由4个模块组成:车辆识别(vehicle detection)、重识别(Re-Identification, ReID)、单摄像头下多目标追踪(Single-Camera Multi-Target tracking, SCMT) 、跨摄像头间关联(Inter-Camera Association, ICA)。文中选择了两阶段的检测器——Casca原创 2023-02-07 13:30:52 · 1876 阅读 · 0 评论 -
单目标追踪——【相关滤波】C-COT原理与ECO基于C-COT的改进
文章针对上述问题,基于C-COT做如下改进: - 提出因式分解卷积算子,对C-COT中的卷积滤波器进行缩减,从而减少模型本身的参数。(对于512维的深度特征+512个卷积滤波器,可以将512个卷积滤波器减到64个,从而剔除了一些不重要的深度特征,降低模型参数。) - 一个为在线更新设计的更加简洁的采样分布的生成模型,降低内存和时间复杂度;增加样本多样性。 - 保守模型更新策略,即降低更新频率,增大更新样本的多样性,继而增强鲁棒性,降低复杂性。原创 2023-03-05 10:22:57 · 978 阅读 · 0 评论 -
多目标追踪——【两阶段】ByteTrack: Multi-Object Tracking by Associating Every Detection Box
本篇文章遵信了多目标追踪(MOT)的**Tracking-by-detection范式**,即先完成目标检测,根据目标检测的结果进行数据关联生成轨迹从而完成多目标追踪的任务。原创 2023-02-13 14:32:42 · 673 阅读 · 0 评论 -
视觉感知——【Transformer】BEVFormer: Learning BEV Representation from Multi-Camera Images
BEVFormer应用 Transformer 和时态结构,通过预定的网格状 BEV 查询向量从多摄像头输入中生成鸟瞰图 (BEV) 特征(图像特征转换为 BEV 特征)原创 2023-02-09 16:07:45 · 292 阅读 · 0 评论 -
多目标追踪——【Transformer】Global Transformer Tracking
当前多目标追踪大多遵循了Tracking-by-detection范式完成跟踪任务。Tracking-by-detection范式将追踪任务分为两步完成:目标检测与数据关联。这样的解决思路也使得当前许多Tracking-by-detection的追踪器将关注点放到了。上图为Tracker的总体网络结构,包括了目标检测和追踪。今天西安天气很好,枫叶谷!这部分公式比较多,详见。原创 2022-11-05 10:52:20 · 2170 阅读 · 0 评论 -
多目标追踪——【Transformer】MOTR: End-to-End Multiple-Object Tracking with TRansformer
论文链接:https://arxiv.org/abs/2105.03247通常来讲,虽然目标检测与目标跟踪都是CV领域,但由于下端的根本任务不同,所以直接套用肯定有问题,所以要仔细设计。可以看到,上图的结构解析如下:此模块的作用是处理目标的出现和消失等情况。图中的分数表示Head预测追踪目标的分类得分。【目的是为TrackTrackTrack QueryQueryQuery 对轨迹与目标的一对一关系建模。】TALA 有两种策略,分别对应着DetectDetectDetect QueryQueryQue原创 2022-11-02 12:50:09 · 2348 阅读 · 2 评论 -
目标检测——【Transformer】Accelerating DETR Convergence via Semantic-Aligned Matching
DEFR收敛速度太慢,如此高的训练成本【DERT在COCO训练集上要训练500个epoch才能收敛,相比之下Faster R-CNN只要12~36个epoch就可以收敛】是因为在匹配query与特征映射空间中的开销,也就是对应的交叉注意力(cross-attention)的计算过程。受到多头注意力机制的启发,它在DERT中扮演了不可或缺的角色,因为多头注意力机制中的多个head的作用就是关注图片特征的不同方面,因此增强模型的表达力。一共可以分为三个部分:语义对齐的匹配、显著点特征的匹配、信息损失的补偿。原创 2022-09-28 21:31:08 · 1728 阅读 · 0 评论 -
RGB-T追踪——【综述】A Survey for Deep RGBT Tracking.
本篇论文总结了RGBT追踪中那些基于深度学习的方法,并在GTOT, RGBT210, RGBT234 和LASHER这四个公认的Benchmark上面进行对比(应该是直接搬用的论文里面的实验数据,所以并不是所有对比的Tracker都有四个Benchmark的结果)原创 2022-09-19 22:42:08 · 4322 阅读 · 0 评论 -
RGB-T追踪——【Siamese】SiamCDA: Complementarity- and Distractor-Aware RGB-T Tracking
这里的操作是,对于前面融合的结果:第一帧的三阶段融合特征和当前帧的三阶段融合特征,分别对三个阶段的融合特征应用Region Proposal网络生成k个anchor,然后用分类分支和回归分支生成对应的响应图。第一帧的RGB特征、TIR特征和当前帧的特征、TIR特征分别这样融合,得到第一帧的三阶段融合特征和当前帧的三阶段融合特征。4.2 如果“太子框”与上一帧的框的交并比小于0.2,就从剩下的其它框,就选其它框中与上一帧的框的交并比大于等于0.7的框且置信度最高的那个。1. 置信度超过0.3的候选框留下;原创 2022-09-19 22:38:07 · 1996 阅读 · 5 评论 -
RGB-T追踪——【多模态融合】APFNet: Attribute-Based Progressive Fusion Network for RGBT Tracking
现有的RGB-T多模态的融合模型通常是设计一个大而复杂的融合模型,或是生成模态相关的置信分数来自适应性地融合RGB模态和TIR模态特征,或是充分考虑模态共享特征-模态独有特征-模态生成响应图这三个方面设计融合模型。这样复杂模型所带来的问题就是需要大量的训练数据,且尽可能包括各种有挑战属性的场景。中提出一个RGB-T追踪的新思路:针对五个典型的挑战(如光照变化(IV)、快速运动(FM)、尺度变化(SV)、遮挡(OCC)和热交叉(TC))设计不同的分支提取相应特征,再融合起来。原创 2022-09-15 17:34:07 · 3385 阅读 · 0 评论 -
单目标追踪——【Transformer】ECCV2022-Towards Sequence-Level Training for Visual Tracking
ECCV2022-Towards Sequence-Level Training for Visual Tracking原创 2022-09-01 17:30:28 · 1870 阅读 · 2 评论 -
单目标追踪——【Transformer】MixFormer: End-to-End Tracking with Iterative Mixed Attention
本文的出发点是认为现有的多阶段Siamese追踪框架【特征提取-特征融合-边界框预测】的前两步【特征提取-特征融合】统一完成。【特征融合】是对template、Search Region特征进行融合。是将template、Search Region的图片像素拼在一起,利用自注意力机制完成特征提取增强、交叉注意力机制完成特征交叉融合。以上提到的其实是考虑到空间特征,而从时序上考虑,则应用模板更新策略,以应对遮挡等挑战。这个模块的作用既提取特征也融合特征。自注意力(self-attention)提取。...原创 2022-08-25 15:40:52 · 1283 阅读 · 0 评论 -
RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline
通常RGB-T追踪器主要用了RGB追踪器相似的pipeline,然后聚焦于设计一个两模态融合方法。现有的融合方法主要分为图片融合、特征融合、决策融合三类。【图片融合】利用BackBone网络,以共享权重的方式学习可见光图片和热红外图片的图片特征,并且学出来的这个共享权重相当于取了可见光图片和热红外图片中对定位目标有用的一致的信息。这种方法存在的缺陷是需要可见光图片和热红外图片高度对齐。【特征融合】大多数Tracker是融合可见光图片和热红外图片的特征。这里也有两种融合。......原创 2022-07-28 00:25:51 · 5777 阅读 · 2 评论 -
RGB-T追踪——【数据集基准】GTOT / RGBT210 / RGBT234 / VOT-2019-2020 / LasHeR / VTUAV
这个数据集出自2016IEEETransactionsonImageProcessing(T-IP)的文章,安徽大学李成龙课题组。数据集包括带统计偏差的50个视频对(以灰度图片-热红外图片对的序列)、视频对应的每帧GroundTruth注释、两个评估指标。视频对是对齐的灰度图片和热红外图。视频拍摄场景有16个,包括实验室、校园道路、操场、水池等等。数据集的统计特性包括评价指标预测框与真值框之间的中心位置距离。由于是小目标,所以这里阈值也由常用的20像素改成5像素。.........原创 2022-07-25 23:33:54 · 12743 阅读 · 43 评论 -
单目标追踪——【相关滤波】MOSSE:Visual Object Tracking using Adaptive Correlation Filters
MOSSE算得上是公认的将相关滤波引入目标追踪中的工作。然而在读了原文之后,发现原文中在部分就回顾了一个ASEF方法,MOSSE就是这个方法正则化的变体,但是克服了ASEF的缺点,速度提高了一个数量级,达到了惊人的669fps。所以可以说是,这样的高的追踪速度使得MOSSE所代表的相关滤波在目标追踪中声名大振吧。之后便有一系列工作围绕相关滤波展开。文章如有不当之处,欢迎批评指正。...原创 2022-07-23 11:20:17 · 568 阅读 · 0 评论 -
单目标追踪——【相关滤波】ATOM:Accurate Tracking by Overlap Maximization
好啦,这篇论文读到这里就差不多啦,虽然对文中顶重要的数学推导跳过了,我好菜。有看到关于这部分的好的推导欢迎评论。强强zzz。原创 2022-07-15 14:14:55 · 1186 阅读 · 0 评论 -
单目标追踪——【Transformer】Transformer Tracking
这篇文章是利用Transformer设计了一个新的基于注意力的特征融合网络和一个Siamese结构的集成该融合网络的追踪方法TransT。 在TransT中该融合网络以替换传统Siamese框架中的correlation相关操作。几个值得注意的点:这个模块主要就是多头自注意力机制+位置编码Sin函数。与原始的Transformer中的多头自注意力机制一样。所以这个模块叫上下文语境的增强模块也正是因为Transformer中Encoder的自注意力的全局特性。这个模块应用了Transformer的Dec原创 2022-07-05 16:58:49 · 5331 阅读 · 0 评论 -
单目标追踪——【Transformer】Learning Spatio-Temporal Transformer for Visual Tracking
这篇文章提出了一个端到端的Transformer架构,一共有两个具体实现的网络结构——Baseline网络【仅考虑空间特征】+ST网络【同时考虑时序和空间特征】几个值得注意的点:网络组成部分:上图是同时考虑时空的STARK网络结构。蓝色部分是与对空间建模的STARK一样的结构,粉色部分是对时间建模。这个网络结构的输入加入了一个动态模板,就相当于同时考虑到目标外观的变化。这部分实现主要就是一个Score Head。从左到右分别是 【动态模板, 初始模板, 搜索区域】组成的输入三元组、最后一层Enco原创 2022-07-05 10:33:12 · 814 阅读 · 0 评论 -
单目标追踪——【Transformer】Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking
这篇文章重点是引入Transformer作为特征提取增强模块。 既是用自注意力对backbone提取的特征进行增强,利用交叉注意力机制使得Template的特征和Search Region的特征交叉增强,有助于后面目标定位。几个注意点:如图所示,Template Features 【这里的Template实际上有20个,这个参数是在消融实验中验证能达到最高的精度。】 和 Search Features是初步经过Backbone(ResNet5......原创 2022-07-03 23:13:24 · 1625 阅读 · 1 评论 -
单目标追踪——【相关滤波】领域发展时间线及典型论文+传统相关滤波和基于深度学习的相关滤波简介
对单目标追踪中相关滤波的框架梳理:传统和基于深度学习。原创 2022-07-02 13:09:44 · 1432 阅读 · 0 评论 -
单目标追踪——【孪生网络】SiamMask论文阅读笔记
提出的SiamMask方法可以完成目标追踪任务和目标分割任务。初始化简化为视频跟踪的box输入即可,同时得到box和mask两个输出。原创 2022-07-02 12:46:39 · 1683 阅读 · 0 评论 -
我爱增量(一)神经网络中的知识蒸馏的Python实现
论文原文:为了解决什么问题?用的什么方法?怎么想到的?具体怎么实现原创 2021-04-24 12:07:33 · 1398 阅读 · 2 评论 -
我爱增量(零)从增量学习的概念重新出发
To begin with近来完成了毕业论文,就开始想要给未来研究生的生涯打下扎实的基础。开始呢我考古了一些非常经典的神经网络,AlexNet到SENet,然后正巧CVPR21又出了许多新的论文,我又 尝试着去了解这些最新的研究进展。不过最后发现自己看了就忘是怎么回事???可能就像读了一篇金融学的文章,很厉害但是却不在我的知识体系里面。后来我看大师说,找到一个方向慢慢琢磨比广撒网更有效。所以我去导师官网找了他们发的文章,决定还是从他们文章切入。再去看新的论文来拓展吧。根据对导师实验室近年发的论文标题进行阅原创 2021-04-10 11:55:36 · 297 阅读 · 0 评论 -
类比-细节双通道神经网络论文的复现(pytorch)
类比-细节双通道神经网络论文的复现三种ADNet三种ADNet原创 2020-12-20 16:16:46 · 2183 阅读 · 11 评论 -
阅读类比-细节双通道神经网络论文
阅读类比-细节双通道神经网络论文欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入论文原文:Analogy-Detail Networks for Object Recognition. 欢迎原创 2020-12-16 15:27:26 · 1041 阅读 · 0 评论