自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 论文精读:《BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotempora》

BEVFormer是一种基于多摄像头图像的3D视觉感知框架,通过时空Transformer学习统一的鸟瞰图(BEV)表示。该框架采用网格状BEV查询与空间和时间域交互:空间交叉注意力聚合多视角特征,时间自注意力循环融合历史BEV信息。在nuScenes测试集上达到56.9% NDS,超越之前方法9个百分点,与激光雷达方法性能相当,尤其在速度估计和低能见度物体识别方面表现突出。其结构化查询设计和时序融合机制显著提升了自动驾驶感知任务的性能。

2025-12-19 14:51:13 706

原创 论文精读:《MOTR: End-to-End Multiple-Object Tracking with Transformer》

本文提出MOTR,一种基于Transformer的端到端多目标跟踪方法。针对传统方法依赖后处理关联导致的非端到端问题,MOTR创新性地扩展DETR框架,引入可逐帧传递更新的"轨迹查询"(Track Query)机制来建模目标时序信息。通过轨迹感知标签分配(TALA)、时序聚合网络(TAN)和集体平均损失(CAL)三个关键技术,MOTR实现了视频序列的端到端时序建模。

2025-11-21 16:03:02 1058

原创 论文精读:《FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking》

本文详细解读 FairMOT 如何利用 Anchor-free 架构、DLA-34 特征融合以及低维 Re-ID 特征,成功打破这一瓶颈 。它不仅在 MOT17 等各大榜单霸榜,更在 RTX 2080Ti 上实现了 30 FPS 的实时推理 。从理论痛点到工程细节,带你彻底读懂这一 MOT 领域的里程碑工作。

2025-11-19 17:30:07 1013

原创 精度:《MViTv2: Improved Multiscale Vision Transformers for Classification and Detection》

MViTv2是Facebook AI Research和UC Berkeley提出的改进版多尺度视觉Transformer,作为统一架构适用于图像分类、目标检测和视频分类三大任务。它在MViTv1基础上引入分解式相对位置嵌入(高效处理位置关系)和残差池化连接(补偿信息损失),显著提升性能。实验表明,MViTv2在ImageNet(88.8%准确率)、COCO(58.7 AP)和Kinetics-400(86.1%准确率)上均达到SOTA水平,同时验证了池化注意力相比窗口注意力在效率与精度上的优势。该工作通过

2025-10-24 14:56:28 1078

原创 精读:《You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-person Multi-task》

本文提出了一种名为HQNet的单阶段、多任务、以人为中心的统一感知框架(HCP),通过学习的"Human Query"表示来同时处理多人检测、分割、姿态估计和属性识别等任务。针对现有数据集不足的问题,作者构建了COCO-UniHuman基准数据集。实验表明,HQNet不仅在多任务HCP模型中表现最优,还能与单任务专用模型相媲美,且Human Query展现出良好的泛化能力。代码和数据已开源。

2025-09-05 11:42:42 896

原创 精读:《VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking》

发表于NeurIPS 2023的《VideoMAE V2》。它旨在解决因计算成本高昂而难以构建大规模视频基础模型的挑战。提出了创新的“双重掩码”策略,在对编码器进行高比例掩码的同时,也对解码器进行部分掩码,极大地提升了预训练的计算和内存效率。基于此,作者成功将模型扩展至首个十亿参数级别(ViT-g),并结合百万级混合预训练数据集和渐进式训练范式,在行为分类、时空检测等多个主流视频任务上刷新了SOTA记录。

2025-09-02 15:49:18 1231

原创 精读:《BoostTrack: boosting the similarity measure and detection confidence for improved multiple obje》

精读:《BoostTrack: boosting the similarity measure and detection confidence for improved multiple obje》

2025-08-22 16:56:59 1033

原创 精读:《DEEP OC-SORT: MULTI-PEDESTRIAN TRACKING BY ADAPTIVE RE-IDENTIFICATION》

这句话首先点明了论文研究的大背景。多目标跟踪(MOT)领域中,一个核心任务是如何将不同帧中的同一个物体关联起来(association)。传统上,这依赖于对物体运动的预测。作者指出,随着近年来物体检测器(如YOLO、Faster R-CNN等)变得越来越强大和精准,单纯依赖运动信息进行关联的跟踪方法又重新变得重要和有效。这为后续提出在该基础上进行改进奠定了基调。这句话指出了当前研究领域的空白和痛点。虽然基于运动的方法很有效,但它们很少能很好地融入物体的“外观信息”(比如一个人的穿着颜色、体型等)。

2025-08-11 16:08:26 921

原创 精读:《Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking》

《以观测为中心的SORT:重新思考鲁棒多目标跟踪》,介绍了一种改进的多目标跟踪方法,尤其适用于存在遮挡和非线性运动的场景。该研究由卡内基梅隆大学、上海人工智能实验室和英伟达的研究人员合作完成。

2025-07-29 17:47:22 2275

原创 关于“高帧率放大了模型对位置噪声的敏感性”的理解

通常我们认为高帧率是好事,但作者指出,高帧率反而放大了模型对位置噪声的敏感性。因为在高帧率下,物体在两帧之间的实际位移非常小(可能只有几个像素)。此时,检测器带来的位置噪声(即使只有1-2个像素)就可能与真实位移处于同一量级。这导致通过 (当前位置 - 上一帧位置) / 时间 计算出的速度估计值会产生剧烈的、不稳定的波动。并且,这个不稳定的速度噪声会通过模型的预测过程,进一步累积到下一帧的位置估计中,形成恶性循环。

2025-07-29 14:42:00 478

原创 精读:《StrongSORT: Make DeepSORT Great Again》

还在为各种多目标跟踪(MOT)方法难以公平比较而烦恼吗?一篇名为《StrongSORT: Make DeepSORT Great Again》的重磅论文给出了答案。

2025-07-24 14:10:28 2151

原创 即使学习了性能更优的BoTSORT,学习StrongSORT仍然非常有必要

strongsort的简要概括

2025-07-23 16:36:08 1000

原创 精读:《BPJDet: Extended Object Representation for Generic Body-Part Joint Detection》

模型能检测到人和手,却不知道哪只手属于哪个人?这个看似简单却长期存在的痛点,正是多篇顶会论文致力解决的难题。今天,我们将一起精读一篇发表于中科院一区顶刊 IEEE TPAMI 的重磅论文——《BPJDet: Extended Object Representation for Generic Body-Part Joint Detection》。本文将带你深入剖析BPJDet如何通过一个巧妙的“扩展对象表示”思想,将“检测”与“关联”两大任务融为一体,实现端到端的精准匹配。

2025-07-19 20:15:54 918

原创 《精读BoT-SORT: Robust Associations Multi--Pedestrian Tracking》

继SORT、DeepSORT和ByteTrack等前辈之后,一个名为BoT-SORT的强大身影登上了历史舞台,并迅速在各大权威排行榜上独占鳌头。

2025-07-18 16:10:34 1375

原创 超越DeepSORT与ByteTrack:多目标跟踪的“集大成者”BoT-SORT深度解析

在计算机视觉的世界里,多目标跟踪(MOT)一直是一个充满挑战又极具魅力的江湖。无数算法在此一较高下,都希望能精准、稳定地“跟住”视频中的每一个目标。

2025-07-18 14:30:20 2643

原创 ByteTrack: Multi-Object Tracking by Associating Every Detection Box

精读:ByteTrack: Multi-Object Tracking by Associating Every Detection Box

2025-07-17 14:23:54 851

原创 聪明的策略远比一个复杂的模型更有效:ByteTrack

快速了解 ByteTrack的策略

2025-07-17 13:12:31 893

原创 DeepSORT:《Simple Online and Realtime Tracking with a Deep Association Metric》

论文精读DeepSORT:《Simple Online and Realtime Tracking with a Deep Association Metric》

2025-07-16 15:22:17 1011

原创 SORT后,DeepSORT 的两大核心创新

简单介绍DeepSORT 的两大核心创新,首先帮助大家了解,后面在进行深入的扩展

2025-07-16 11:47:52 723

原创 轨迹生命周期管理 (Tracklet Lifetime Management) 机制

除了我们已经深入探讨的 “卡尔曼滤波做预测” 和 “门控匈牙利算法做匹配” 这两大支柱外,要完整地理解 SORT 的工作流程,您还需要掌握以下三个关键的“流程管理”环节。

2025-07-16 11:18:58 477

原创 目标跟踪领域的另一个基石——卡尔曼滤波 (Kalman Filter)

快速理解卡尔曼滤波以及在目标跟踪的应用

2025-07-16 11:06:29 1280

原创 匈牙利算法以及sort算法中的应用

匈牙利算法的理解,并没有涉及公式推导,帮你快速了解匈牙利算法是做什么的

2025-07-16 10:43:00 781 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除