自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(237)
  • 资源 (4)
  • 收藏
  • 关注

原创 MetaFormer A Unified Meta Framework for Fine-Grained Recognition 论文学习

在每个阶段的开始位置,降低输入的大小,以实现不同的尺度。MetaFormer 也能看作为一个混合主干架构,卷积操作下采样图像,加入卷积的归纳偏置,transformer 融合视觉和元信息。但是,大多数的 FGVC 方法都是用 ImageNet-1K 预训练的,制约了细粒度识别的进一步探索。因此,学习视觉信息要更加困难,如果在网络训练的开始阶段,就将大量的辅助信息输入网络,网络的视觉能力会受到损害。直觉上,物种的分布可以在地理上得到体现,不同种类的栖息地是不同的,于是时空信息可以辅助物种的细粒度分类任务。

2024-04-14 16:28:22 622

原创 Trajectory-guided Control Prediction for End-to-end Autonomous Driving论文学习

端到端自动驾驶方法直接将原始传感器数据映射为规划轨迹或控制信号,范式非常简洁,从理论上避免了多模块设计的错误叠加问题和繁琐的人为规则设计。当前的端到端自动驾驶方法主要有两条独立的研究路线,要么基于规划轨迹来运行控制器,要么直接预测控制信号。端到端模型的预测输出一般有两种形式:轨迹/路径点和直接控制动作。但是,至于哪一种更好仍没有定论。可以直接用于车辆上,而则需要额外的控制器如 PID 控制器来将规划轨迹转化为控制信号。

2023-11-04 22:57:57 357

原创 BEV-YOLO 论文学习

出于安全和导航的目的,自驾感知系统需要全面而迅速地理解周围的环境。目前主流的研究方向有两个:第一种传感器融合方案整合激光雷达、相机和毫米波雷达,和第二种纯视觉方案。传感器融合方案的感知表现鲁棒,但是成本高,所要面临的环境挑战不少,因此大规模部署不太现实。纯视觉方案只依赖于相机传感器做感知,成本低廉,可以持续迭代。因此,纯视觉方案可能是自动驾驶行业的终极方向。目前,纯视觉领域的研究焦点就是如何生成环境 BEV 图,赋能车载感知系统。

2023-11-04 21:44:07 1293 3

原创 UniAD 论文学习

当前的自动驾驶方案大致由感知(检测、跟踪、建图)、预测(motion、occupancy)和规划三个模块构成。为了实现各种功能,智驾方案大致包括两种路线。一种是针对每个任务都部署一个模型,该范式能降低各团队间的研发困难度,但由于各个优化目标是孤立的,会引发模块之间信息丢失、错误累加和特征不对齐的问题。另一种是多任务的设计路线,多个任务 heads 共享一个特征提取器,该范式能节省边缘计算平台的资源消耗,并且扩展性强,但会带来“负迁移”的问题。

2023-10-08 23:53:17 973

原创 Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks 论文学习

对于一个多任务损失函数Lt∑witLitLt∑wi​tLi​t,目的是学习函数witw_i(t)wi​t将不同任务的梯度范数置于一个区间,这样我们能得出它们的相互影响的大小;动态调节梯度范数,不同的任务可以相同的速率学习。首先,作者定义一些关于梯度的相关量:WWW:我们要应用 GradNorm 的网络权重W⊂WW⊂W的子集。为了节约计算成本,WWW通常用权重最后一个共享层。

2023-09-25 12:47:12 91

原创 FairMOT 论文学习

现有的多目标跟踪方案将目标检测和 reID 任务放在一个网络里面优化学习,计算效率高。目标检测首先在每一帧中检测出兴趣目标,要么将其与现有的轨迹关联起来,要么创建一个新的轨迹。这两个任务会相互竞争,现有的方法都将 reID 任务列为次优先级任务,而检测任务为主优先级,reID 的准确率受检测影响很大,这对 reID 不公平。当场景中目标很多时,先检测再跟踪的方式无法取得实时的效果,因为这两个模型并不共享特征,需要对每个目标框分别使用 reID 模型。

2023-09-25 12:43:49 280

原创 StrongSORT 论文学习

现有的 MOT 方法大致可分为 tracking-by-detection 和 joint-detection-association 两种方式。尽管 joint-detection-association 获得了更多的关注度,取得了与前者相近的表现,作者认为在跟踪的准确率方面 tracking-by-detection 方式仍是最优的。本文认为,DeepSORT 表现不如 SOTA 方法,是因为 DeepSORT 所使用的技术落伍了,而非其跟踪方式的问题。此外,现有的方法。

2023-09-25 12:39:22 300

原创 ByteTrack 论文学习

多目标跟踪是在给定的视频片段中,预测出目标的边框和 ID 信息。现有方法需要在 true positives 和 false positives 之间做取舍,将高于一定阈值的检测框关联起来,获取其 ID。而那些低得分的目标(如被遮挡物体)会被舍弃,造成一些真实目标丢失、轨迹断断续续的问题。如下图,在t1​帧初始化了三个不同的 tracklets,其得分高于0.5。但在t2​和t3​帧出现了遮挡,红框对应的得分就从0.8降到了0.4,然后降到了0.1。因为阈值是0.5。

2023-09-25 12:34:54 301

原创 CenterTrack 论文学习

早期的跟踪方法依赖于低层级的信息,如角点和热力图极值点。Tracking-by-detection 方法则依赖于一个准确的目标检测器,然后通过复杂的关联策略将不同时间点的检测框联系起来。

2023-09-25 12:31:38 187

原创 Improved Baselines with Momentum Contrastive Learning 论文学习

最近的非监督表征学习关注在对比学习上。在检测和分割任务上,MoCo 的非监督预训练表现优于在 ImageNet 监督预训练的表现;在线性分类表现上,SimCLR 进一步缩小了非监督和监督预训练的差距。

2023-09-25 11:33:12 149

原创 Momentum Contrast for Unsupervised Visual Representation Learning 论文学习

非监督学习在自然语言处理非常成功,如 GPT 和 BERT。但在计算机视觉任务上,监督预训练方法要领先于非监督的方法。这种差异可能是因为各自的信号空间不同,语言任务有着离散的信号空间(单词、短语等)来构建非监督学习所需的字典。而计算机视觉则很难构建一个字典,因为原始信号位于连续的高维空间,不像单词一样是结构化的。最近的非监督表征学习方法使用对比损失取得了不错的效果,它们基本是构建了一个动态字典。从数据中采样,产生字典的 keys/tokens,由编码器网络表征。

2023-09-25 11:29:05 238

原创 DAMO-YOLO 论文学习

工业界追求高性能、低延迟的目标检测算法,研究人员于是聚焦于单阶段目标检测,探索高效的网络结构和训练策略。YOLOv5/v6/v7、YOLOX 和 PP-YOLOE 在 COCO 数据集上实现了不错的精度-速度平衡,得到广泛应用,但它们仍有提升空间。

2023-07-25 14:30:26 425 1

原创 YOLOX-PAI 论文学习

对 YOLOX 做加速,在单张 Tesla V100 上取得了42.8mAP,推理速度为 1 毫秒。

2023-07-25 14:13:23 261 1

原创 PP-YOLOE 论文学习

单阶段目标检测器能很好地平衡速度和精度,YOLO 系列是其中的代表。YOLOX 采用了 anchor-free 范式,加入了动态标签分配以提升检测表现,在 Tesla V100 上取得了 50.1 mAP,速度是 68.9 FPS。本文提出的 PP-YOLOE 为了适配各种硬件平台,没有使用可变形卷积、Matrix NMS 等操作。如下图,PP-YOLOE 在速度和精度方面领先于 YOLOX 和 YOLOv5。

2023-07-25 14:10:38 167

原创 YOLOv7 论文学习

实时的目标检测器是计算机视觉系统的重要组成部分。目前应用在 CPU 端的实时目标检测方法大多基于 MobileNet、ShuffleNet、GhostNet,而用在 GPU 的实时目标检测方法大多基于 ResNet、DarkNet、DLA,然后使用 CSPNet 策略来优化网络架构。本文方法主要侧重于优化训练的过程,而非模型架构。这些优化方法会增加一定的训练成本,提升检测的表现,但不会增加推理成本。本文没有尝试自监督学习或知识蒸馏方法,它们需要更多的训练数据或更大的模型。开始在目标检测领域流行起来。

2023-07-25 13:49:03 233 1

原创 YOLOv6 论文学习

吸收了学术圈和工业界最新的目标检测方法,包括网络结构、训练策略、测试技巧、量化和优化方法。

2023-07-25 13:43:46 249

原创 Training-Time-Friendly Network for Real-Time Object Detection 论文学习

目前的目标检测器很少能做到快速训练、快速推理,并同时保持准确率。直觉上,推理越快的检测器应该训练也很快,但大多数的实时检测器反而需要更长的训练时间。准确率高的检测器大致可分为两类:推理时间久的的训练时间久的。推理时间久的检测器一般依赖于复杂的后处理逻辑或沉重的检测 head。尽管这些设计能提升准确率和收敛速度,但是推理速度很慢,不适合实时应用。为了降低推理速度,人们尝试去简化检测 head 与后处理,同时能维持准确率。

2023-07-25 13:39:26 1171

原创 TOOD Task-aligned One-stage Object Detection 论文学习

目标检测通过多任务学习的方式,协同优化目标的分类和定位。分类任务会学习目标的判别特征,关注于目标的显著性或关键区域,而定位任务则学习准确地定位目标的边界。因为定位和分类的学习机制不同,这俩任务学到的特征分布也不同。当这两个分支做预测时,会产生一定的错位现象。如下图,上面一行是 ATSS 预测的分类得分和定位得分的空间分布,下面一行是 TOOD 预测的分类得分和定位得分的空间分布。

2023-07-25 13:34:49 1391

原创 VarifocalNet An IoU-aware Dense Object Detector 论文学习

密集目标检测器会预测出大量的候选检测框,如何准确地对它们进行排序是取得优异性能的关键。以前的方法通常会在 NMS 时根据类别得分对预测框做排序,但这可能损害模型表现,因为类别得分并不能体现边框定位的准确性,定位准确的边框可能会因为类别得分较低而被 NMS 错误地去除。现有的一些方法会预测一个额外的 IoU 得分或 center-ness 得分,表示定位质量。然后在 NMS 排序时将它们乘上分类得分。

2023-07-25 13:28:50 92

原创 GFLv2 论文学习

预测定位质量对于目标检测很重要,在 NMS 时它能提供准确的得分排序,提高模型的表现。现有方法都是通过分类或回归的卷积特征来预测定位质量得分。

2023-07-25 13:24:47 167

原创 BEVPoolv2 A Cutting-edge Implementation of BEVDet Toward Deployment 论文学习

在上一版本的 BEVDet 中,继承了 CenterPoint 的感受野,没做任何改动。CenterPoint 的感受野以 LiDAR 坐标系的原点为中心点,但评测时是以 IMU (自车)坐标系的原点为感受野的中心,感受野不一致。它继承了 BEVDet 的优势,从工程优化的角度做了改进。BEVPoolv2 对 BEVDet 的视角变换过程做了工程优化,计算和存储都得到了大幅度的释放。支持了 BEVDepth 的全部改进,包括 LiDAR 的深度监督、深度修正、camera-aware 的深度预测。

2023-07-23 19:53:55 888

原创 GFLv1 论文学习

单阶段目标检测器通过密集预测的方式进行分类、定位。分类一般使用 Focal Loss,而边框回归则通过 Dirac delta 分布来学习。近年来的改进方向是引入一个单独的分支,预测定位的质量,然后用该质量分数去辅助分类得分,提升检测的表现。下图(a) 是一些背景区域,但它们的定位质量得分很高。图(b) 的蓝点说明预测的类别得分和质量得分之间的关系较弱,红圈包含了大量的负样本,但它们的预测定位质量得分都很高。

2023-07-19 10:46:49 217

原创 FCOS 论文学习

之前的目标检测器如 RetinaNet、SSD、YOLOv3 都依赖于 anchors。正负样本不均衡;

2023-07-19 10:40:36 191

原创 Bridging the Gap Between Anchor-based and Anchor-free Detection via ATSS 论文学习

Anchor-based 和 anchor-free 方法的本质差异其实是如何定义正负样本,如果训练过程中它们采用相同的正负样本定义,最终的表现是差不多的。也就是说,如何选取正负样本才是最重要的。作者从上面三个方面出发,分析为什么 FCOS 的表现优于 RetinaNet。此外,通过一系列实验表明,发现在一个位置放置多个 anchors 来检测物体并不是必要的。

2023-07-19 10:28:41 275

原创 Slim-neck by GSConv 论文学习

目标检测是计算机视觉中一个重要任务。在边缘设备上,大模型很难取得实时的效果。而使用大量深度可分离卷积的模型则很难取得高准确率。如下图,深度可分离卷积的缺点就是:输入图像的通道信息在计算时被分隔开了。这使得深度可分离卷积(DSC)的特征提取能力和融合能力要比标准卷积(SC)差不少。MobileNets 使用大量的1×1卷积,融合单独计算出的通道信息。ShuffleNets 使用 channel shuffle 让通道信息相互交流。GhostNet 则使用一半的标准卷积操作,保持通道间的信息交流。

2023-07-19 10:23:13 1162

原创 ASFF Learning Spatial Fusion for Single-Shot Object Detection 论文学习

目标检测取得了显著成绩,但是检测不同尺度的目标仍然是一个挑战。金字塔或多层级特征是解决目标检测中尺度变化的常用手段。但对于单阶段目标检测器而言,各特征尺度之间不一致性制约了算法的表现。与图像金字塔相比,特征金字塔在各尺度间是不一致的,要用到启发式的特征选取策略:大目标通常与高层级特征图有关,而小目标则和低层级特征图有关系。当某层级的特征图上的目标被分配为正样本,其它层级特征图的相应区域就会被看作为背景。这种不一致性会对梯度计算造成影响,使特征金字塔的效力降低。

2023-07-19 10:18:23 305

原创 RFLA Gaussian Receptive Field based Label Assignment for Tiny Object Detection 论文学习

1. 解决了什么问题?目标检测中最难的一个挑战就是小目标检测,因为小目标所提供的判别特征很有限。对于小目标检测,无论是 anchor-based 还是 anchor-free 检测器,它们使用的度量都不是最优的。现有的标签分配度量依赖于重叠度,当一个 gt 没有和任何先验框重叠时,就无法通过 IoU 或 centerness 来解决位置关系。而对于小目标而言,经常发现没有先验框和 gt 框重叠的现象,造成小目标缺乏足够多的正样本。现有方法的先验框主要服从均匀分布,框内的所有点(v=constantv

2023-07-19 10:15:50 158

原创 BEVFusion Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation 论文学习

如下图 b 所示,现有的实现(如 LSS)首先计算所有点的 prefix sum,然后减去索引改变的边界位置的值。不同的特征存在于不同的视角中,相机特征是在透视视角,LiDAR/RADAR 特征通常在 3D/BEV 视角。这些差异使得特征融合很困难,因为在不同的特征张量中,相同的元素可能对应着完全不同的空间位置,直接做逐元素的特征融合是无效的。不同的传感器可以提供互补的信号:相机能捕捉到丰富的语义信息,LiDAR 可以提供准确的空间信息,RADAR 能提供及时的速度预测。的图像特征能匹配到点云。

2023-07-18 13:29:58 72

原创 MVX-Net Multimodal VoxelNet for 3D Object Detection 论文学习

下图是 MVX-Net VoxelFusion 方法,使用预先训练好的 2D Faster RCNN 计算图像特征图,RPN 和 RCN 并不用于 3D 推理流程。使用标定参数将 3D 点投影到图像,把对应的图像特征添加到 3D 点的后面。随后,VFE 层和 3D RPN 处理聚合后的特征,输出 3D 结果。然后利用标定参数,将每个 3D 点投影到图像上,将投影位置索引的特征添加到该点的后面。都通过 VFE 层(一个全连接网络)变换到特征空间,聚合 3D 点特征的信息,编码体素内的表面形状。

2023-07-18 13:22:58 536 1

原创 MonoDTR Monocular 3D Object Detection with Depth-Aware Transformer 论文学习

如下图(a),Pseudo-LiDAR 方法通过单目深度估计将图像升成 3D 坐标,将预测的深度图转换为 3D 点云,模拟 LiDAR 信号,然后用 LiDAR 检测器来做 3D 目标检测。如下图(b),另一类基于融合的方法则使用多种融合策略,从图像和预测的深度图提取特征,然后将深度特征和图像特征融合,以检测目标。是深度类别(bins)的个数。本文提出了一个端到端的单目 3D 检测算法,MonoDTR 是一个通晓深度信息的 transformer 网络,避免了大计算量和由深度估计带来的不准确的深度先验。

2023-07-18 11:33:01 496

原创 ImVoxelNet 论文学习

FCOS head 的输入是 FPN 的 2D 特征,然后通过 2D 卷积层预测 2D 框。将 3D 空间的 3D 目标检测降低为 BEV 平面的 2D 检测问题。Head 的输入是一个 2D 特征图,所以我们应该从 3D 体素 volume 中获取一个 2D 表征。为了融合不同输入的信息,作者构建了一个 3D 空间的体素表征,然后从该 3D 特征图做最终的预测,类似于点云检测的方式。而本文使用的是密集的体素表征,于是作者受到 FCOS 启发,构建了一个 head 可以完成多尺度的 3D 目标检测。

2023-07-18 11:27:38 295

原创 MV-FCOS3D++ Multi-View Camera-Only 4D Object Detection with Pretrained Monocular Backbones 论文学习

对于多视角相机画面的 3D 检测任务,基于 BEV 和 3D 几何表征的方法可以利用相邻视角重叠区域的立体信息,无需人工后处理即直接进行 3D 检测。它包含一个简单的单目检测器 FCOS3D++,只在 Waymo 标注上预训练,然后将多视角特征转换为 3D 网格空间,再去检测 3D 目标。如下图所示,给定从连续帧提取的体积特征,将其变换到当前帧的自车坐标系下,将它们沿着特征通道 concat,得到。得到 3D 体素特征后,作者使用了多个由 3D 卷积网络组成的残差模块,聚合 3D 空间信息,沿着。

2023-07-18 11:22:44 93

原创 Monocular 3D Object Detection with Depth from Motion 论文学习

类似地,时序上相邻的两帧画面也具有立体匹配关系,但它们的 baseline 是不固定的,依赖于相机的帧间运动。立体深度估计和单目深度估计的底层逻辑是不同的:立体估计依赖于匹配,而单目估计则依赖于数据驱动的先验信息,和对一张图像的语义与几何信息的理解。如上所述,有一些场景是立体估计也无法处理的。因此,受到双目方法的启发,作者将复杂的几何关系包含在一个 plane-sweep cost volume 里面,作为立体匹配的替代方案:考虑到我们无法直接从视差估计深度,于是为每个像素点提供候选的深度值,将这些。

2023-07-18 11:16:42 421

原创 CenterNet Objects as Points 论文学习

现有的检测方法大多会穷举所有潜在的目标位置,然后做分类。这类后处理操作是不可微的,训练起来比较困难,因此大多数的检测器的训练并不是端到端的。本文将目标检测建模为关键点预测问题,通过关键点预测得到中心点位置,然后回归出所有的属性,如尺寸、3D 坐标、朝向角,甚至姿态。对于 3D 框预测,CenterNet 回归目标的绝对深度、3D 框的维度和朝向角。用可变形卷积增强跳层连接。3D 检测预测每个目标的三维框,需要为每个中心点提供三个额外的属性:深度、3D 维度和朝向角。对于所有的类别,该偏移量的学习是一样的。

2023-07-18 11:03:46 174

原创 VoxelNet End-to-End Learning for Point Cloud Based 3D Object Detection 论文学习

代码:VoxelNet End-to-End Learning for Point Cloud Based 3D Object Detection论文:VoxelNet End-to-End Learning for Point Cloud Based 3D Object Detection1. 解决了什么问题?对点云做 3D 检测是许多应用得以实现的关键,如自动驾驶和扫地机器人等。与图像检测相比,LiDAR 能提供可靠的深度信息,可准确地定位目标,描述出它们的形状。但由于多种因素,如 3D 空间的非

2023-07-08 22:33:15 429

原创 DID-M3D 论文学习

单目 3D 检测成本低、配置简单,对一张 RGB 图像预测 3D 空间的 3D 边框。最难的任务就是预测实例深度,因为相机投影后会丢失深度信息。以前的方法大多直接预测深度,本文则指出 RGB 图像上的实例深度不是一目了然的,它由视觉深度信息和实例属性信息耦合,很难直接用网络学到。

2023-05-22 14:19:42 640

原创 BEVDet4D 论文学习

全局坐标系为。

2023-05-21 15:10:02 1164

原创 BEVDet 论文学习

自动驾驶系统感知周围的环境再进行决策,极具挑战。基于视觉的自动驾驶系统对准确性和效率的要求很严格,人们会采用不同的范式来解决 3D 检测和分割任务。对于多相机 3D 目标检测,image-view-based 方法如 FCOS3D 和 PGD 处于领先位置;对于 BEV 语义分割任务,则由 BEV-based 方法如 PON、LSS 和 VPN 主导。本文试图通过一个范式来解决 3D 目标检测和 BEV 语义分割问题。

2023-05-21 15:08:25 867

原创 CaDDN 论文学习

单目 3D 目标检测是自动驾驶的重要课题,与一般的多传感器系统相比,它具有简洁、成本低、易部署的优点。单目 3D 检测的主要挑战在于能否准确预测目标的深度。由于缺乏直接的测量手段,我们只能从目标和场景信息推断,因此单目 3D 检测的表现远落后于 LiDAR 和双目视觉的方案。一些单目目标检测方法会单独训练一个深度估计网络,直接学习深度信息。但在 3D 检测阶段,它们直接使用估计的深度信息,缺乏对深度置信度的理解,网络对预测的深度值过于相信,造成模型对于大尺度范围的深度估计不准确。

2023-05-21 15:01:22 585

原创 Lift, Splat, Shoot 论文学习

LSS 在工业界具有非常重要的地位。自从 Tesla AI Day 上提出了 BEV 感知后,不少公司都进行了 BEV 工程化的探索。传统的视觉任务如图像分类不考虑帧坐标系;而目标检测和分割任务则是在同一帧的坐标系进行预测。对于自动驾驶任务,输入来自于多个传感器,帧坐标系各不相同。算法最终的输出结果会表现在一个新的坐标系里(即车辆自身 ego frame 的坐标系),以供下游任务使用。

2023-05-21 14:56:31 1209

DeepLab v3 论文

DeepLab v3 - Rethinking Atrous Convolution for Semantic Image Segmentation 是语义分割相关的论文,效果不错。

2019-04-30

Pyramid Scene Parsing Network.pdf

Pyramid Scene Parsing Network 是关于语义分割的论文,效果不错。

2019-04-30

Git Tutorial

This helps you to learn Git techniques so that you can use better mange your projects.

2018-07-27

PostgreSQL Tutorial

PostgreSQL Tutorial, English Version. If you are interested, it is free to download.

2018-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除