![](https://img-blog.csdnimg.cn/direct/b711190e5f504fd5805d2e28844cb294.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
深度学习论文阅读翻译
文章平均质量分 94
本专栏提供CVPR,IEEC等计算机视觉领域的论文解读或者翻译,以方便大家阅读理解论文。不便之处,还请见谅。
Jackie_AI
设计指导帮助。计算机深度学习卷积神经网络处理等
展开
-
Multiple Object Tracking with Correlation Learning
近段时间MOT领域的工作表明,卷积神经网络通过同时学习检测和外观特征可以带来较大的性能收益,然而,由于卷积神经网络结构上的局部感知特性,不能有效获得空间和时间上的长程依赖。因此,CorrTracker这篇文章中,为了整合空间布局,作者提出利用局部相关模块(correlation module)对目标及其周围环境之间的拓扑关系进行建模,以增强模型在拥挤场景中的判别能力。具体来说,该方法建立每个空间位置及其上下文的密集对应关系,并通过自监督学习显式地约束correlation volumes(相关性空间)。原创 2023-12-11 15:07:23 · 58 阅读 · 0 评论 -
Rethinking the competition between detection and ReID in Multi-Object Tracking
为了追求速度和精度的平衡,联合训练检测模型和 ReID 模型的 JDE 范式(如下图,具体提出参考 JDE 原论文 Towards Real-Time Multi-Object Tracking)受到了学术界和工业界越来越多的关注。原创 2023-12-11 15:06:52 · 66 阅读 · 0 评论 -
One More Check: Making “Fake Background“ Be Tracked Again
单阶段多目标跟踪方法联合检测和重识别任务,近年来取得了比较大的突破,诞生了非常有影响力的方法如JDE等。然而,当前单阶段跟踪器仅仅使用单帧输入来获得边界框预测,当遇到比较严重的视觉障碍如遮挡模糊等时,边界框可能是不可靠的。一旦一个目标框被检测器误分为背景类别,其对应轨迹段的时序一致性就将难以保持。这篇论文中,作者通过提出一个重检查网络来恢复错误分类的边界框,即虚假背景。重检查网络通过使用改进的互相关层探索跨帧时间线索与当前候选框之间的关系,从而将先前的轨迹段传播到当前帧。原创 2023-12-11 15:06:18 · 76 阅读 · 0 评论 -
DCN & RepPoints解读
从DCN到RepPoints,本质上其实都是更精细的特征提取演变的过程。点集(RepPoints)方式只是显式的表现了出来而已,不过其确实能在精度和速度上取得非常好的平衡。以RepPoints或者类似的思路如今已经活跃在目标检测和实例分割任务中,推动着计算机视觉基础任务的发展,,这是难能可贵的。而且,跳出bbox的范式也诠释着,有时候跳出固有的范式做研究,会获得意想不到的效果。原创 2023-12-11 15:05:38 · 53 阅读 · 0 评论 -
论文阅读 DEFT: Detection Embeddings for Tracking
卷积神经网络的发展推动了目标检测领域的进步,TBD范式(Tracking by Detection)的MOT也取得巨大的突破,最近的研究表明,在SOTA跟踪器上添加简单的跟踪机制就可以比依赖旧检测架构的复杂跟踪器效果更好。检测:在当前帧检测出所有目标;关联:将当前帧上的目标和之前帧上的目标进行链接。跨帧关联的方法有很多,但是那些特征可学习关联方法通常更有趣一些,因为它们有望解决建模和启发式方法失败的情况。即使有了可学习关联,二阶段方法也可能产生准确性和效率方面的次优结果。原创 2023-12-11 15:05:05 · 80 阅读 · 0 评论 -
论文阅读 DetNet: A Backbone network for Object Detection
如上一节所述,目标检测任务和图像分类任务是有区别的,这是由它们任务本身决定的,目标检测不仅仅需要识别对象的类别,还需要空间上定位出对象的边界框。具体而言,用分类模型作为检测的backbone存在两个问题:第一,FPN等结构会在原来的backbone结构基础上添加额外的stage来完成不同尺度目标的检测,这个额外添加的stage是无法在ImageNet上预训练的。原创 2023-12-08 10:35:18 · 49 阅读 · 0 评论 -
DLA 论文解读
表示学习和迁移学习的发展推动了计算机视觉的发展,可以简单组合的特性催生了很多深度网络。为了满足各种不同的任务,寻找合适的网络结构至关重要。随着网络尺寸的增加,模块化的设计更为重要,所以现在的网络越来越深的同时,更紧密的连接能否带来提升呢?更多的非线性、更强的表示能力、更大的感受野一般能够提高网络精度,但是会带来难以优化和计算量大的问题。原创 2023-12-08 10:34:46 · 68 阅读 · 0 评论 -
论文阅读 Dynamic ReLU
论文提出了动态线性修正单元(Dynamic Relu,下文简称 DY-ReLU),它能够依据输入动态调整对应分段函数,与 ReLU 及其静态变种相比,仅仅需要增加一些可以忽略不计的参数就可以带来大幅的性能提升,它可以无缝嵌入已有的主流模型中,在轻量级模型(如 MobileNetV2)上效果更加明显。论文地址论文源码ReLU 在深度学习的发展中地位举足轻重,它简单而且高效,极大地提高了深度网络的性能,被很多 CV 任务的经典网络使用。原创 2023-12-08 10:33:46 · 71 阅读 · 0 评论 -
Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks
自注意力其实早已在计算机视觉中有所应用,从较早的Non-Local到最近的Transformer,计算机视觉兜兜转转还是有回到全局感知的趋势。相比于卷积这种局部感知的操作,自注意力计算每个位置与其他所有位置信息的加权求和来更新当前位置的特征,从而捕获长程依赖(这在NLP中至关重要)获取全局信息。但是自注意力的劣势也是非常明显的,一方面自注意力对每个位置都要计算与其他位置的关系,这是一种二次方的复杂度,是非常消耗资源的;另一方面,自注意力对待每个样本同等处理,其实忽略了每个样本之间的潜在关系。原创 2023-12-07 14:04:06 · 89 阅读 · 0 评论 -
目标检测-EfficientDet: Scalable and Efficient Object Detection
之前提到,EfficientDet 是 EfficientNet 的拓展,我们首先来简单聊一聊 EfficientNet,感兴趣的请阅读原文。在 EfficientNet 中提到了一个很重要的概念 Compound Scaling(符合缩放),这是基于一个公认的事实:调整模型的深度、宽度以及输入的分辨率在一定范围内会对模型性能有影响,但是过大的深度、宽度和分辨率对性能改善不大还会严重影响模型前向效率,所以 EfficientNet 提出复合系数ϕ\phiϕ统一缩放网络的宽度、深度和分辨率,具体如下。原创 2023-12-07 14:03:21 · 72 阅读 · 0 评论 -
多目标跟踪-Global Correlation Network: End-to-End Joint Multi-Object Detection and Tracking
此前的多目标跟踪(MOT)方法多遵循TBD(Tracking by Detection)范式,将检测和跟踪分为两个组件。早期的TBD方法针对检测任务和跟踪任务需要分别进行特征提取,典型的如DeepSORT方法。近段时间,不少方法将两个任务的特征提取融入一个网络中形成了JDT(Joint Detection and Tracking)范式,典型的是JDE方法。不过,JDE方法的跟踪部分依然依赖于数据关联并且需要复杂的后处理来进行轨迹的生命周期管理,因此它们并没有将检测和跟踪组合得很好。原创 2023-12-07 12:14:56 · 152 阅读 · 0 评论 -
目标检测-Gaussian Context Transformer
此前,大量的通道注意力模块被提出用于增强卷积神经网络(CNN)的表示能力,这些方法通常使用全连接层或者线性变换来学习全局上下文和注意力激活值之间的关系(relationship)。但是,实验结果表明,这些注意力模块虽然引入了不少参数,但也许并没有很好地学习到这种关系。这篇论文中,作者假定这种关系是可以预先确定的,基于这个假设,作者提出了一种简单但是极其高效的通道注意力模块,名为 Gaussian Context Transformer(GCT),它通过满足预设关系的高斯函数来实现上下文特征激励。原创 2023-12-07 12:14:19 · 102 阅读 · 0 评论 -
目标检测 -Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dens
众所周知,单阶段检测器的发展是目标检测领域的重要研究方向,而单阶段方法往往将目标检测视为密集分类和定位任务(其中定位任务值得就是边框回归)。分类任务通常通过Focal Loss进行优化,而边框定位通常按照Dirac delta分布来学习。最近单阶段检测器的研究趋势为引入一个单独的分支来估计定位的质量(centerness或者iou),这个质量预测有助于分类任务的进行从而整体上提高检测的性能。原创 2023-12-07 12:11:09 · 135 阅读 · 0 评论 -
Generalized Focal Loss V2: Learning Reliable Localization Quality Estimation for Dense Object Dete
在之前的文章介绍了GFocalV1这个开创性的工作,它将边界框建模为通用分布表示,这个分布式的表示其实在GFocalV1中对整个模型的贡献并不是非常大(相比于分类-质量联合表示),因此如何充分利用成为GFocalV2的出发点,事实上,既然分布的形状和真实的定位质量高度相关,那么这个边框的分布表示其实可以算出统计量指导定位质量估计,这就是GFocalV2的核心创新点。论文标题论文地址论文源码当前的密集检测器由于其优雅且高效,成为业界比较关注的研究热点之一。原创 2023-12-07 12:09:33 · 33 阅读 · 0 评论 -
目标检测-Gradient Harmonized Single-stage Detector
单阶段跟踪以一个更优雅的方式对待目标检测问题,然而它也存在困扰已久的问题,那就是样本的不均衡从而导致模型训练效果不好,这包括正负样本的不平衡和难易样本的不平衡。原创 2023-12-07 12:08:40 · 59 阅读 · 0 评论 -
LambdaNetworks 论文解读
文章对于捕获输入和结构化上下文之间的长程交互提出了一种新的通用框架,该方法名为Lambda Layer。它通过将可用上下文转化为名为lambdas的线性函数,并将这些函数分别应用于每个输入。Lambda层是通用的,它可以建模全局或者局部的内容和位置上的信息交互。并且,由于其避开了使用“昂贵”的注意力图,使得其可以适用于超长序列或者高分辨率图像。由Lambda构成的LambdaNetworks在计算上是高效的,并且可以通过主流计算库实现。原创 2023-12-07 12:07:53 · 46 阅读 · 0 评论 -
多目标跟踪(multiple object tracking,MOT)Multiplex Labeling Graph for Near-Online Tracking in Crowded Scen
多目标跟踪(multiple object tracking,MOT)是计算机视觉领域一个颇受关注的话题,其对于监控分析、远程控制等工业场景应用广泛。不同于车辆跟踪,只发生在固定的车道约束内,行人的移动往往是没什么约束的。因此行人跟踪会更加困难。TBD(tracking by detection)范式是目前MOT领域最常用的框架,它的思路分为两步,先是将每一帧上的目标检测出来,然后通过一定的度量指标对帧间的目标进行数据关联。原创 2023-12-07 12:06:46 · 53 阅读 · 0 评论 -
多目标跟踪(Multiple Object Tracking,MOT)Real-time Multiple People Tracking with Deeply Learned Candidate
MOTDT是清华大学TNList实验室发表的收录于ICME2018的一篇文章,作者基于TBD范式提出从检测结果和跟踪结果中收集候选框从而解决检测不可靠的问题,这种产生冗余候选框的思路来源于检测和跟踪可以在不同场景下信息互补。高质量的检测可以阻止长期跟踪产生的轨迹偏移,轨迹的预测又可以防范由于遮挡造成的噪声检测。为了实时从大量候选框中进行最优选择,我们提出了一种基于全卷积神经网络的新的评分函数,该函数共享了整个图像的大部分计算。此外,外观的表示学习采用一个深度神经网络在三个大规模行人重识别数据集上训练得到。原创 2023-12-07 12:06:11 · 143 阅读 · 0 评论 -
多目标跟踪MOTR: End-to-End Multiple-Object Tracking with TRansformer
多目标跟踪的关键挑战在于轨迹上目标的时序建模,而现有的TBD方法大多采用简单的启发式策略,如空间和外观相似度。尽管这些方法具有通用性,但它们过于简单,不足以对复杂的变化进行建模,例如通过遮挡进行跟踪。本质上,现有方法缺乏时间建模的能力。这篇论文中,作者提出了MOTR,这是一个真正的完全端到端的跟踪框架。MOTR能够学习建模目标的长程时间变化,它隐式地进行时间关联,并避免了以前的显式启发式策略。原创 2023-12-06 12:16:00 · 469 阅读 · 0 评论 -
High-Performance Large-Scale Image Recognition Without Normalization
最近有不少文章介绍了NFNet,但是没怎么看到针对论文较为详细的解读,所以这边就结合论文谈谈个人的见解。NFNet(Normalizer-Free ResNets)是DeepMind提出了一种不需要Batch Normalization的基于ResNet的网络结构,其核心为一种AGC(adaptive gradient clipping technique,自适应梯度裁剪)技术。原创 2023-12-06 12:15:18 · 48 阅读 · 0 评论 -
Transformer-PoolFormer解读
Transformer已经在计算机视觉中展现了巨大的潜力,一个常见的观念是视觉Transformer之所以取得如此不错的效果主要是由于基于self-attention的token mixer模块。但是视觉MLP的近期工作证明将这个token mixer换为spatial MLP依然可以保持相当好的效果。作者并没有在这方面做过多的探究,而是认为这些工作之所以成功的原因是因为他们模型结构采用MetaFormer这样的通用架构(即token mixer+channel MLP(FFN))原创 2023-12-06 12:14:31 · 61 阅读 · 0 评论 -
R-CNN 系列解读
R-CNN和Fast R-CNN出现后的一段时期内,目标检测领域的一个重要研究方向是提出更高效的候选框,其中Faster R-CNN开创性提出RPN,产生深远影响。Sparse R-CNN以一组稀疏输入即可获得比肩SOTA的检测性能,为真正的端到端检测开拓了一条路。原创 2023-12-06 12:12:49 · 28 阅读 · 0 评论 -
多目标跟踪 RelationTrack: Relation-aware Multiple Object Tracking with Decoupled Representation
现有的多目标跟踪方法为了速度通常会将检测和ReID任务统一为一个网络来完成,然而这两个任务需要的是不同的特征,这也是之前很多方法提到的任务冲突问题。为了缓解这个问题,论文作者设计了Global Context Disentangling(GCD)模块来对骨干网络提取到的特征解耦为任务指定的特征。此外,作者还发现,此前的方法在使用ReID特征为主的关联中,只考虑了检测框的局部信息而忽视了全局语义相关性的考虑。原创 2023-12-06 12:05:03 · 74 阅读 · 0 评论 -
ResT: An Efficient Transformer for Visual Recognition
ResT是一个高效的多尺度视觉Transformer结构,可以作为图像识别的通用骨干网络,它采用类似ResNet的设计思想,分阶段捕获不同尺度的信息。不同于现有的Transformer方法只使用标准的Transformer block来处理具有固定分辨率的原始图像,ResT有着几个优势:提出一种内存高效的多头自注意力,使用深度卷积进行内存压缩,并且跨注意力头的维度投影交互同时保持多头的多样性能力;将位置编码构建为空间注意力,它可以以更加灵活的方式处理任意尺寸的输入而无需插值或者微调;原创 2023-12-06 12:04:21 · 58 阅读 · 0 评论 -
SA-Net: Shuffle Attention for Deep Convolutional Neural Networks
注意力机制如今已经被广泛用于卷积神经网络中,大大提升了很多任务上的性能表现。目前视觉中的注意力机制主要有两种,如下图所示,分别是通道注意力和空间注意力(我在之前的文章介绍了视觉中一些比较有名的注意力方法,可以访问查看)。通道注意力着重于捕获通道间的依赖而空间注意力则关于像素间的关系捕获,不过它们都是通过不同的聚合策略、转换方法和强化函数来从所有位置聚合相同的特征来强化原始特征。CBAM和GCNet同时处理空间和通道信息,获得了较好的精度提升,然而它们通常存在收敛困难、计算负担大等问题。原创 2023-12-06 12:01:27 · 1236 阅读 · 0 评论 -
SENet & SKNet 解读
SENet和SKNet分别从通道信息和感受野自适应角度出发,设计了一个新的网络结构,获得了比较有突破的成果,SKNet是SENet基础上的工作,还集成了近几年卷积神经网络的一些主流技巧,可以说集众家之长,也可以说是人工设计卷积神经网络的集大成者了,SKNet后来的很多效果更好的卷积神经网络或多或少带有NAS技术的影子,不过,自动搜索也是不可阻挡的未来趋势。原创 2023-12-06 11:59:33 · 141 阅读 · 0 评论 -
ResNetv2论文解读
本文的主要贡献在于通过理论分析和大量实验证明使用恒等映射()作为快捷连接()对于残差块的重要性。同时,将BN/ReLu这些activation操作挪到了Conv(真正的weights filter操作)之前,提出“预激活“操作,并通过与”后激活“操作做对比实验,表明对于多层网络,使用了预激活残差单元() 的resnet v2都取得了比resnet v1(或 resnet v1.5)更好的结果。原创 2023-11-21 22:51:48 · 96 阅读 · 0 评论 -
VoVNet论文解读
作者于2019年发表的论文 An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection. 是对DenseNet网络推理效率低的改进版本。因为DenseNet通过用密集连接,来聚合具有不同感受野大小的中间特征,因此它在对象检测任务上表现出良好的性能。虽然特征重用()的使用,让DenseNet以少量模型参数和FLOPs,也能输出有力的特征,但是使用DenseNet作为backbone。原创 2023-11-20 23:19:54 · 68 阅读 · 1 评论 -
ShuffleNetv2论文详解
当前,神经网络结构的设计基本由间接的计算复杂度主导,例如FLOPs,但是直接的度量如速度,还取决于其他因素,例如内存的获取损耗和平台特性。因此,我们将使用直接的标准衡量,而不仅仅是FLOPs。因此本文建议直接在目标平台上用直接度量进行测试。基于一系列控制条件实验,作者提出了设计高效网络结构的一些实用指导思想,并据此提出了一个称之为的新结构。综合的对比实验证明了作者的模型在速度和准确性上取得了最佳的平衡(为了衡量计算复杂度,一个广泛采用的度量方式是浮点运算的次数FLOPs。原创 2023-11-20 23:16:11 · 90 阅读 · 0 评论 -
ResNet网络详解
残差网络(ResNet)的提出是为了解决深度神经网络的“退化”(优化)问题。有论文指出,神经网络越来越深的时候,反传回来的梯度之间的相关性会越来越差,最后接近白噪声。即更深的卷积网络会产生梯度消失问题导致网络无法有效训练。而ResNet通过设计残差块结构,调整模型结构,让更深的模型能够有效训练更训练。目前 ResNet 被当作目标检测、语义分割等视觉算法框架的主流 backbone。作者提出认为,假设一个比较浅的卷积网络已经可以达到不错的效果,那么即使新加了很多卷积层什么也不做,模型的效果也不会变差。原创 2023-11-21 22:53:27 · 255 阅读 · 0 评论 -
DenseNet论文解读
ResNet的工作表面,只要建立前面层和后面层之间的“短路连接”(shortcut),就能有助于训练过程中梯度的反向传播,从而能训练出更“深”的 CNN 网络。DenseNet网络的基本思路和ResNet一致,但是它建立的是前面所有层与后面层的密集连接传统的LLL层卷积网络有LLL个连接——每一层与它的前一层和后一层相连—,而 DenseNet 网络有LL12L(L+1)/2LL1/2个连接。在 DenseNet 中,让网络中的每一层都直接与其前面层相连,实现特征的重复利用;原创 2023-11-21 22:41:38 · 18 阅读 · 0 评论 -
视觉注意力机制(下)
本文简单介绍了计算机视觉中几种最新的采用注意力机制的卷积神经网络,它们都是基于前人的成果进行优化,获得了相当亮眼的表现,值得借鉴。原创 2023-11-25 22:34:53 · 24 阅读 · 0 评论 -
CDIoU论文解读
近年来,针对设计精度更高速度更快的目标检测算法出现了大量的工作。新的数据增强、更深层的神经网络、更复杂的FPN结构乃至更多的训练迭代次数,这些策略不断刷新检测的SOTA表现。不可否认,这些方法确实获得了显著的成功,然而它们也伴随着大量的参数和计算消耗,这是有损算法的高效性的。这篇论文的作者则将关注的重心放在region proposals的评估系统和反馈机制上(说的通俗一点就是IoU模块和损失函数,它们组合在一起称为评估反馈模块)。评估反馈模块有三个主要部件。原创 2023-11-25 22:37:10 · 52 阅读 · 0 评论 -
视觉注意力机制(上)
本文简单介绍了计算机视觉中几种比较早期的采用注意力机制的卷积神经网络,它们的一些设计理念今天还被活跃用于各类任务中,是很值得了解的。后面的文章会介绍一些相对比较新的成果,欢迎关注。原创 2023-11-25 22:33:20 · 38 阅读 · 0 评论 -
Coordinate Attention for Efficient Mobile Network Design
注意力机制常用来告诉模型需要更关注哪些内容和哪些位置,已经被广泛使用在深度神经网络中来加强模型的性能。然而,在模型容量被严格限制的轻量级网络中,注意力的应用是非常滞后的,这主要是因为大多数注意力机制的计算开销是轻量级网络负担不起的。考虑到轻量级网络有限的计算能力,目前最流行的注意力机制仍然是SENet提出的SE Attention。如上图所示,它通过2D全局池化来计算通道注意力,在相当低的计算成本下提供了显著的性能提升。原创 2023-11-26 15:58:41 · 110 阅读 · 0 评论 -
视觉注意力机制(中)
在上篇文章中,我介绍了视觉注意力机制比较早期的作品,包括Non-local、SENet、BAM和CBAM,本篇文章主要介绍一些后来的成果,包括A2A^2A2-Nets、GSoP-Net、GCNet和ECA-Net,它们都是对之前的注意力模型进行了一些改进,获得了更好的效果。本系列包括的所有文章如下,分为上中下三篇,本文是中篇。我们首先还是来回顾一下卷积神经网络中常用的注意力,主要有两种,即空间注意力和通道注意力,当然也有融合两者的混合注意力。我们知道,卷积神经网络输出的是维度为C×H×WC\times H原创 2023-11-25 22:34:02 · 17 阅读 · 0 评论 -
BorderDet论文解读
目前密集目标检测器很受欢迎,其速度很快且精度不低,不过这种这种基于点的特征虽然使用方便,但会缺少关键的边界信息。旷视于 ECCV2020 发表的这篇 BorderDet,其中的核心就是设计了 Border Align 操作来从边界极限点提取边界特征用于加强点的特征。以此为基础设计了 BorderDet 框架,该框架依据 FCOS 的 baseline 插入 Border Align 构成,其在多个数据集上涨点明显。Border Align 是适用于几乎所有基于点的密集目标检测算法的即插即用模块。论文地址。原创 2023-11-25 22:36:22 · 30 阅读 · 0 评论 -
Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Select
卷积神经网络兴起后,目标检测长期被anchor-based方法通知,前后经历了二阶段方法到单阶段方法的转变。不过无论哪种方法都是在图像上平铺大量预定义的anchor,然后经过一次或者多次的anchor的类别预测和坐标修正,最后输出修正过的anchor作为检测结果。这里二阶段方法会对anchor进行多次修正,而单阶段只会进行一次修正,因此二阶段方法精度较高单阶段方法速度较快。原创 2023-11-25 22:32:17 · 25 阅读 · 0 评论 -
多目标跟踪MOT TPAGT 解读
首先说明的是,TPAGT 按照一般 MOT 的方法划分是一个二阶段框架,也就是先完成检测,再按照检测结果到相应的位置提取目标特征,最后利用关联算法得到结果,关联一般采用匈牙利算法。单阶段方法融合了检测和特征提取,是为了速度做出的精度妥协,所以精度相比二阶段有些低。所以,作为一个二阶段方法,TPAGT 的精度应该有所创新,但是相应的速度比较慢,具体推理速度,论文没有提及,只能等源码开放后测试了。先来说一说 MOT 现有方法没解决的几个问题。特征不一致问题。原创 2023-12-05 10:37:46 · 44 阅读 · 0 评论 -
多目标跟踪 TransTrack解读
回顾MOT的核心思路,如下图所示,目前TBD范式的多目标跟踪方法依然受限于复杂的pipeline,这带来了大量的计算代价,如下图(a)所示,一如当年的DeepSORT,检测和跟踪任务分开进行,这会带来一些比较严重的问题:一方面,这种两个任务分开进行会造成它们不能共享有效的信息带来额外的算力消耗;另一方面,连续两帧间的无序目标对和每帧中不完整的检测都为跟踪算法带来了极大的挑战。因此,JDE范式的产生其实是MOT领域的发展非常重要的一步。原创 2023-12-04 15:41:24 · 248 阅读 · 0 评论