蓝田生玉123-CSDN博客

原创 YOLO-world论文阅读笔记

结合CLIP和yolov8，CLIP提取文本特征，yolov8提取图像特征，核心是如何将文本特征和图像特征融合，这个特征融合模块要非常简单，最好融合一次就行，不用多多阶段融合，这样部署的时候就可以直接用CLIP离线编码好的文本特征，而不用再实时推理了，节约了大量的计算量，并且非常简单。之前的开集检测方法都需要在线编码文本，以获取需要检测的类别，而yolo-world只需要离线编码一次就行了，后面推理阶段直接用离线编码的文本就行，对部署非常友好。只微调分割头的话会有更好的开集分割能力（泛化能力）。

2024-07-02 16:32:57 1105

原创【2D多目标跟踪】Quasi-Dense Similarity Learning for Multiple Object Tracking阅读笔记

1、为什么要做这个研究（理论走向和目前缺陷） ?之前的2D MOT里只用gt样本训练（利用基本沿用reid的训练所用的损失）embedding特征（记为reid特征）。但是GT样本是稀疏的，没有充分利用可能准gt样本的多样性，如果能有一堆正样本和负样本参与训练优化的话，这样可能会使提取的embedding特征更具备判别性。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?作者提出一种利用纯reid 特征而无位置、运动信息的多目标跟踪方法，核心改进有如下几点：1）训练reid feature时

2022-04-23 22:33:09 3525

原创【3D目标跟踪】EagerMOT: 3D Multi-Object Tracking via Sensor Fusion阅读笔记（2021）

1、为什么要做这个研究（理论走向和目前缺陷） ?2D图像上的检测可以看得更远，而且检测更准，但是缺乏距离测量。3D点云有精确的距离测量，但是远距离的物体扫到的点就很少了，经常出现漏检，故考虑融合3D检测距离很准而2D检测看得更远的优势，提高3D目标跟踪对遮挡、远距离目标跟踪的效果。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?1)3D检测和2D检测关联：点云和图像都有各自的检测器，3D检测器获得的3D框先投影到2D图像上，基于2D IoU找到对应2D检测器输出的2D框（即同一目标的3D框和

2021-10-26 22:14:42 5420 2

原创【3D目标跟踪】Tracklet Proposal Network for Multi-Object Tracking on Point Clouds阅读笔记（2021）

1、为什么要做这个研究（理论走向和目前缺陷） ?TBD是现在做目标跟踪的主流方法，这也导致检测结果很影响跟踪的好坏，能否利用由粗到精的思想（faster rcnn）先获得多个粗的轨迹，然后再细化（去除不准的轨迹）得到一个更加准确轨迹？这是本文的主要思考方向。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?1）先生成粗的候选轨迹片段：输入的是多帧（实际4帧）点云序列，每帧点云经过一个共享参数的spconv后再转成一个BEV特征，然后把这连续帧的BEV特征按顺序输入到ConvGRU中获取高阶BE

2021-10-18 17:44:17 1918 2

原创【3D目标跟踪】Probabilistic 3D Multi-Modal, Multi-Object Tracking for Autonomous Driving阅读笔记（2020）

1、为什么要做这个研究（理论走向和目前缺陷） ?之前的3D多目标跟踪，相似度计算基本都不考虑目标的几何和外观特征，也很少会把点云和图像特征融合在一块做，生命周期管理无一例外都是基于经验来设置一个固定参数。不好。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?主要创新就是加了三个可训练的模块：1）特征融合模块：融合图像（maskrcnn）和点云（centerpoint）的特征，计算检测和跟踪的特征相似度。2）距离组合模块：组合融合的深度特征距离和马氏距离作为相似度度量。3）跟踪初始化模块：基于

2021-10-14 17:30:38 1508

原创【3D目标跟踪】 Probabilistic 3D Multi-Object Tracking for Autonomous Driving阅读笔记（2020）

1、为什么要做这个研究（理论走向和目前缺陷） ?AB3DMOT用的3DIOU作为度量标准，在小目标时很容易跟丢。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?在AB3DMOT基础上改进，主要改进点，1）用马氏距离取代3DIOU作为相似度度量，避免了因为小物体跟踪和对应的检测很容易不重合却被匹配不上的情况。2）卡尔曼滤波的协方差矩阵P，观测噪声R,过程噪声Q的初始化都是从训练集的统计结果中获得，而不是像AB3DMOT中一样根据经验进行初始化，并且马氏距离计算公式中的协方差矩阵也是来自卡尔曼滤

2021-10-13 21:47:58 1357

原创【3D目标跟踪】AB3DMOT阅读笔记（2020）

1、为什么要做这个研究（理论走向和目前缺陷） ?3D跟踪往往都太慢了，能否用传统方法组合实现比较好的结果。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?没啥新东西，就是3D卡尔曼滤波（匀速运动模型）+匈牙利匹配。开发了一个3Dmot评估系统，并提出3个新的3D mot评估指标sAMOTA,AMOTA,AMOTP。3、发现了什么（总结结果，补充和理论的关系）?KITTI上达到207.4FPS，效果也不错。摘要：很多3Dmot上的研究都不太关注计算量和系统复杂度，导致的结果就是这样研究出

2021-10-12 18:27:47 2280 8

原创【2D目标跟踪】DeepSort阅读笔记（2017）

1、为什么要做这个研究（理论走向和目前缺陷） ?sort算法虽然很快，但是对于长期遮挡会出现频繁的id切换问题。MHT和JPDA，一旦遇到密集场景，其计算量会剧增，准确性也不够令人满意。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?在sort算法（卡尔曼滤波+匈牙利匹配）基础上，加入了用深度网络提取的表观特征，联合之前的运动信息共同作为相似度计算依据，其中表观特征对于长期遮挡后再重新匹配上效果很好，而运动信息对于稳定状态估计不确定性比较低时效果很好（相机不乱动）。此外，还考虑了匈牙利算法的

2021-10-12 13:06:21 896

原创【2D目标跟踪】SIMPLE ONLINE AND REALTIME TRACKING阅读笔记（2017）

1、为什么要做这个研究（理论走向和目前缺陷） ?之前的算法MHT或者JPDA，虽然关联效果很不错，但是在密集、遮挡严重的场景计算复杂度大幅增加，无法实时。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?sort算法，：检测：faster rcnn；状态参数：目标中心位置(u,v)，中心位置速度(u’,v’)，面积，高宽比；运动模型：匀速直线运动；状态更新：卡尔曼滤波；相似度度量：IOU；匹配算法：匈牙利匹配。3、发现了什么（总结结果，补充和理论的关系）?sort算法核心就是把卡尔曼滤波

2021-10-11 20:58:28 423

原创【3D目标检测/跟踪】Center-based 3D Object Detection and Tracking阅读笔记（2021）

1、为什么要做这个研究（理论走向和目前缺陷） ?之前做3D目标检测大多基于Anchor来做，不好表达，且不利于下游任务，如跟踪。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?本文提出将3D目标表达为一个中心点，设计了两个模型，单阶段的CenterPoint和两阶段的CenterPoint。单阶段CenterPoint主干网络用VoxelNet或PointPillar,输出的特征图加一个2D卷积输出目标的中心点（中心点设置及计算损失参考CornerNet），以及对每个点回归3D框尺寸、朝向、

2021-09-22 23:05:27 2811 2

原创【2D/3D目标检测】STD: Sparse-to-Dense 3D Object Detector for Point Cloud阅读笔记（2019）

1、为什么要做这个研究（理论走向和目前缺陷） ?主要是为了减少计算量和节约计算时间而设计。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?每个3D点上的anchor设置成球形，避免了朝向的预定义，也就避免了每个点要设置多个anchor。根据每个3D点预测的得分做NMS得到候选的球形候选区（iou计算是根据交集点数/并集点数），然后对球形候选区的点特征输入到pointnet中预测一个长方体形候选区，然后对长方体形的点随机选一部分做体素化，然后VFE层提取特征，得到密集的体素特征，然后输入到全连

2021-09-07 22:41:35 418 2

原创【3D目标检测】Part-A^2阅读笔记（2019）

1、为什么要做这个研究（理论走向和目前缺陷） ?2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?PointRCNN的主干网络用pointnet++提取点级特征，本文方法改为稀疏卷积版的U-net提取体素特征。比较有新意的就是在第一阶段对每个体素特征做部件位置预测，然后和原始提取的体素分割结果以及体素特征连接在一块做3D候选框的精细回归。3、发现了什么（总结结果，补充和理论的关系）?论文写了很长，看似很多新名词其实都是之前已经有的东西稍微变换一下，不过效果挺好的。摘要：本文方法是对之前的P

2021-09-06 18:29:18 519

原创【2D/3D目标检测】PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud阅读笔记（2019）

1、为什么要做这个研究（理论走向和目前缺陷） ?基于体素的方法会有信息损失，基于视锥的方法太过依赖2D检测的结果，且不太好应对遮挡问题。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?提取利用原始点云来做3D框回归的2阶段网络。第一阶段中，首先用pointnet++对每个3D点都生成一个特征向量，然后对每个3D点做前背景分类,同时基于bin的方式回归一个3D候选框。前景点组成的所有3D候选框进行NMS。第二阶段利用第一阶段经NMS得到的3D候选框，进行一定的3D候选框的尺寸拓展，找到拓展后的

2021-08-25 20:04:43 523

原创【3D目标检测】Multi-Task Multi-Sensor Fusion for 3D Object Detection阅读笔记（2019）

1、为什么要做这个研究（理论走向和目前缺陷） ?多传感器融合向来不是一个简单的事，融合方式设计的不好不但可能不会信息互补，还有可能各传感器的缺点都继承下来，效果更差。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?做点云和图像的融合。点云利用的是BEV特征和图像特征借助3d点这个中间媒介进行关联，然后把关联上的图像像素点特征加到BEV特征上去，这是稀疏point-wise融合，在特征提取主干网络阶段实现。利用BEV特征预测的3D候选区分别投射到BEV特征图和图像特征图上，得到的BEV roi

2021-08-24 21:06:52 979

原创【2D/3D目标检测】Objects as Points阅读笔记（2019）

1、为什么要做这个研究（理论走向和目前缺陷） ?有anchor的方法往往需要nms后处理，无法端到端的训练。无anchor的方法，往往也无法避免nms,且往往需要做非常复杂的关键点匹配（如cornernet、extremnet)。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?提出用关键点预测的方法（即预测热图）重新建模目标检测。将检测目标视为其边界框的中心点，根据热图确定中心点的问题，由于中心点只有一个正例热峰，避免了nms去重，其大如中心点位置偏移、尺寸、角度等都是在此中心点的基础上预测

2021-08-20 17:40:16 423

原创 Improving Multispectral Pedestrian Detection by Addressing Modality Imbalance Problems(2020)文献解读

ECCV2020的一篇文章。摘要：模态不平衡不利于双模态多光谱行人检测训练过程。为此提出了MBNet(Modality Balance Network)来解决模态不平衡导致的不利于优化的问题。MBNet包含一个DMAF(differential modality aware fusion，差异模态感知融合)模块用来融合两个模态信息。还包含一个光照感知特征对齐模块来根据光照条件来挑选互补特征，并自适应地对齐两种模态的特征。1、引言多光谱行人检测数据集中的模态不平衡问题可分为两类：1）光照模态不平衡。即

2021-01-16 19:38:26 2179

原创 LaserNet: An Efficient Probabilistic 3D Object Detector for Autonomous Driving论文解读

1、为什么要做这个研究（理论走向和目前缺陷） ?现有的3D目标检测还是效率低。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?以原生的雷达数据（柱面图）作为输入，这样可以使得输入是密集规则的数据，包含5个通道（分别是距离r, 高度z，方位角theta, 强度e,以及一个标记是否包含3D点的通道），对每个像素点预测概率分布（相对中心点在x和y方向的均值作为偏移，以及共用的方差），根据各个像素点预测结果进行聚类，产生的同一个cluster的像素点的预测结果共同决定这个cluster对应的3D

2021-01-12 16:29:11 949

原创 [目标检测]End-to-End Object Detection with Transformers文献解读（2020）

1、为什么要做这个研究（理论走向和目前缺陷） ?以前做目标检测主流是faster rcnn之流要做anchor和NMS等手工设计。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?将目标检测问题视为集合预测问题，所预测的集合中的每个元素即每个GT集合中的元素一一对应，且每个元素输出的是相对整个图像的位置、尺寸，避免了NMS和anchor设计。具体做法就是CNN主干网络对输入图片提取特征，然后将每个特征的位置信息加上一并输入到Transformer中，输出固定个数的预测结果，每个预测结果不

2020-12-05 16:19:08 2867

原创【3D目标检测】3D Object Detection Using Scale Invariant and Feature Reweighting Networks文献解读（2019）

1、为什么要做这个研究（理论走向和目前缺陷） ?估计就是为了发论文而写的，看不出要解决什么问题。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?整体来看本文就是F-PointNet的变种，创新不大。先2D检测器crop点云视锥，然后在视锥内做点云的前背景分类，然后对前景点云做坐标系变换（基于PointNet中的T-net实现）以及做最终的3D框的回归，在最终的3D框的回归时加了通道注意力。3、发现了什么（总结结果，补充和理论的关系）?效果不怎么样，实验也不够充分。摘要：提出了基于

2020-11-25 21:23:17 993

原创【3D目标检测】RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinemen文献解读（2018）

1、为什么要做这个研究（理论走向和目前缺陷） ?一般融合图像和点云信息做3D目标检测的算法对相机和激光雷达联合标定的要求极高。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?本文要解决的问题就是如何在相机和激光雷达标定没那么准的情况的下还能保证较高的性能，归根结底就是扩大搜索空间，但也不能太大，用2D检测的目标就是限制搜索空间。具体说来就是，用2D检测器做目标检测，同时还要多预测几个参数，即目标的长宽高和航向角。依据这些预测的参数（经过一系列几何变换）可以在3D点云里找到对应的候选区域，

2020-11-24 21:20:35 440

原创【3D目标检测】PointPillars: Fast Encoders for Object Detection from Point Clouds论文解读（2019）

1、为什么要做这个研究（理论走向和目前缺陷） ?VoxelNet只有4.4fps,SECOND虽然能达到20fps，但还有提升空间。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?算是对SECOND的加速版，将原来3D 体素网格的编码方式改为2D立柱方式，且改用2D 卷积而非3D 卷积处理。还有一些其他的加速操作，比如特征降维，tensorRT等。3、发现了什么（总结结果，补充和理论的关系）?效果和SECOND差不多，但是快了很多，达到62fps。摘要：PointPillars网

2020-11-23 15:04:07 1341

原创【3D目标检测】SECOND: Sparsely Embedded Convolutional Detection论文解读（2018）

1、为什么要做这个研究（理论走向和目前缺陷） ?VoxelNet这种直接对点云进行特征提取而非手工设计特征的3D检测算法效果还行但是很慢。以前的方案朝向预测不准。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?提出了3D稀疏卷积（在流形卷积基础上进行优化），充分利用了计算机内存的局部性和多级缓存特性减少访存，以及成熟的GEMM计算速度优势，GPU并行计算的优势等，加速计算。提出了新的朝向编码方案，避免朝向相反但损失很大的情况。提出了新的数据增强方法，将其他点云里的目标点加到当前点云中，增

2020-11-21 22:10:34 2254

原创【3D目标检测】IPOD: Intensive Point-based Object Detector for Point Cloud论文综述（2018）

1、为什么要做这个研究（理论走向和目前缺陷） ?F-PointNet过度依赖2D检测的结果，且不能很好出遮挡重叠问题。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?先用2D分割网络滤除3D点云中的背景点以节约计算量和减少无用3D候选框的预测，然后用PointNet++对每个前景点中预测3D候选框，同时用也用PointNet++对所有原生点云中的每个点提取一个特征。根据已经预测的3D候选框，找到这个候选框里的所有的点特征输入到第二阶段网络（又是一个简版的PointNet++）预测最终的3

2020-11-20 00:17:31 873

原创【3D目标检测】Joint 3D Proposal Generation and Object Detection from View Aggregation论文综述（2018）

1、为什么要做这个研究（理论走向和目前缺陷） ?之前的3D目标检测方法（MV3D）有很多问题，比如定位不准，计算量大等。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?基于MV3D做改进，主要改进思路是去除一个FV视角，候选区生成时同时利用3D anchor做中介，寻找在图像特征和点云鸟瞰图特征的对应，然后用双线性插值对这两个特征resize到相同大小（3X3）后通过element-wise average实现融合，后输入RPN网络预测ROI。ROI映射到图像特征和点云鸟瞰图特征融合也是

2020-11-18 21:04:14 1065 1

原创【3D目标检测】HDNET: Exploiting HD Maps for 3D Object Detection论文综述（2018）

1、为什么要做这个研究（理论走向和目前缺陷） ?之前的3D目标检测都不用高精地图，而是直接基于感知设备获得的数据做感知，高精地图一般只用于规划，白白浪费了这么简单易得的提升检测效果的方法。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?还是将点云进行体素化分成3D网格（占有网格，即网格中有点记为1，无点记为0），但是现有点云减去了地图中的地面高度信息，以实现将有坡度的地面拉直。同时增加了1个点云强度通道，1个来自地图中的道路区域通道。将这些通道连接在一起作为输入，做3D目标检测。考虑到并

2020-11-18 11:07:06 1328 2

原创【3D目标检测】Deep Continuous Fusion for Multi-Sensor 3D Object Detection论文综述（2018）

1、为什么要做这个研究（理论走向和目前缺陷） ?这是一篇比较早的做点云和图像融合做3D目标检测的论文，以前的融合没有做多层融合的，融合过程也过于单一，这篇论文提出了比较有新意的融合思路。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?双流，一个处理点云的鸟瞰图，一个处理图像，这里的关键是如何将鸟瞰图特征和图像特征对应起来然后融合（对应元素特征相加），3D点云恰好就是这个负责联系鸟瞰图特征和图像特征的媒介。具体说来就是，每个鸟瞰图像素点可以找到对应的点云中的3D点（找不到的化取最近的），然

2020-11-17 12:03:53 688

原创【3D目标检测】PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation论文综述（2018）

1、为什么要做这个研究（理论走向和目前缺陷） ?做3D目标检测的大部分都是要面向自动驾驶的，这论文找了个理由说是“通用”，不限于数据集比如lidar-image,或者rgb-d，感觉很牵强。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?不太清楚这论文出来时F-PointNet出来没，感觉都是一个风格的，但是这个论文在预测3D框时同时融合了图像特征和点云特征，融合方法就是简单的concatenate。论文中有一些trick比如pointnet中不用BN,回归损失函数的设计值得借鉴。3、

2020-11-15 16:43:57 961 1

原创【3D目标检测】PIXOR: Real-time 3D Object Detection from Point Clouds论文综述（2018）

1、为什么要做这个研究（理论走向和目前缺陷） ?做3D卷积计算量太大，2D CNN信息损失又太多，考虑可以输入是3D体素但是做的是2D卷积。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?输入是36个通道的3D体素数据（包括35个通道的3D体素特征，每个体素网格表示这个网格中是否有点云中的点，有记为1无记为0。还有1个通道代表体素网格反射率）。然后做2D卷积，在鸟瞰图下预测2D框（即不预测z值和框的高度），包括中心点坐标，航向角和框宽和高。不用anchor，以缩小版gt框内的像素点为正例

2020-11-14 18:34:20 318

原创【3D目标检测】VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection论文综述（2017）

1、为什么要做这个研究（理论走向和目前缺陷） ?这时的基于3D CNN来做的3D目标检测体素化之后全都是手工设计特征表达，即体素网格中的点一般选取最高点z值、网格中数目等作为该体素网格表达，手工设计的特征表达往往有各种局限，没办法发挥数据本身的潜力。2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?VoxelNet是第一个采用学习的方式（pointnet）来进行体素网格中特征表达的网络，有效提升了每个体素网格中的特征表现力。实现过程中还有一些针对稀疏点云数据的trick，比如采用hash实

2020-11-14 12:41:38 289

原创 [3D目标检测] RT3D: Real-Time 3-D Vehicle Detection in LiDAR Point Cloud for Autonomous Driving论文综述（2018）

本来以为有很多亮点，读了之后发现没啥亮点，基本就是R-FCN的3D版，效果也不行，也没有快到实时的地步。

2020-11-12 21:05:34 492

原创【3D目标检测】Multi-View 3D Object Detection Network for Autonomous Driving论文综述（2016）

以后工作要做自动驾驶环境感知了，从今天开始更新3D目标检测相关的论文综述，刚把爹！摘要：本文提出MV3D，能够融合LIDAR和RGB图像信息以预测有向3D边界框。MV3D将点云用多视角（multi-view）表征，模型包括两个子网络，一个子网络基于点云数据的鸟瞰图生成3D候选区，另外一个子网络用于多视角特征的深度融合（deep fusion）。1、引言本文的关注重点在用如何充分利用雷达和图像数据提供的信息。最近的基于lidar的方法主要是先把点云体素化然后用3D CNN分类回归，或者在点云前视图中使

2020-11-11 21:57:02 1205

空空如也

空空如也