Lukas88664-CSDN博客

原创【论文阅读】一些轻量的有效的attention module的介绍

最近在看论文，发现很多的论文都用到了attentive moudule。这也得益于越来越多的实验证明自注意力机制对于：什么是重要的？这个问题的合理解决。相比传统的直接生成特征图，对于每一个item进行同样的卷积提取特征等操作，让神经网络来自己学习哪部分是前景，哪部分是背景噪声，不重要，加入一个attentive module是一个很聪明的办法。现在学术界涌现出许多的attentive module的设计方法，主要还是应用在2d目标检测领域。这篇博客主要是对于一些开源的影响力大的模块进行一个介绍。CM

2022-05-17 17:03:41 2574 5

原创【论文阅读】【多传感器融合】TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

论文标题：TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with TransformersCVPR2022现存的Lidar-Camera融合的方法：主要分为三类：result-level，proposal-level以及point-levelresult level是这么做的：首先用现成的2d检测器来生成3dproposals,然后用pointnet来进行物体定位。（FPointNet/RoarNet）proposal

2022-05-07 11:58:19 2009 1

原创【代码阅读】mmdetection3d运行配置

模型配置我打算放到抠某一个模型的代码的时候去讲，先讲一下运行时的一些优化器等的配置：mmdetection支持pytorch已经实现的一些优化器 adam和sgd等，我们可以在配置文件中这么定义：optimizer = dict(type=‘Adam’, lr=0.0003, weight_decay=0.0001)也可以自己去定义新的优化器，这个操作在mmdet3d/core/optimizer目录中,新建一个mmdet3d/core/optimizer/my_optimizer.py：fro

2022-05-05 10:34:00 1947

原创【代码阅读】mmdetection3d的数据预处理

数据预处理流程和数据集之间是互相分离的两个部分，通常数据集定义了如何处理标注信息，而数据预处理流程定义了准备数据项字典的所有步骤。数据集预处理流程包含一系列的操作，每个操作将一个字典作为输入，并输出应用于下一个转换的一个新的字典。蓝色框表示预处理流程中的各项操作。随着预处理的进行，每一个操作都会添加新的键值（图中标记为绿色）到输出字典中，或者更新当前存在的键值（图中标记为橙色）。以之前的pointpillar模型的数据预处理流程为例：train_pipeline = [ dict(

2022-05-05 09:53:11 1546

原创【代码阅读】mmdetection3d的配置文件

mmdetection3d的配置文件放置在config/base下面，下面有4种类型组件：数据集（dataset），模型（model），训练策略 (schedule) 和运行时的默认设置 (default runtime)。由 base 下的组件组成的配置，被我们称为原始配置 (primitive)。我们以kitti为例，对于数据集的一些基本信息存储在_base_/datasets下面。这里主要定义了数据集的位置/名称/类别/点云范围，把他们打包好，送进pipeline中 pipeline分别是tra

2022-05-04 21:43:50 1862

原创【代码阅读】mmdetection3d框架

最近在看mmdetection框架的源代码，许多的文章的源码都是基于这个框架写的。很有借鉴意义，所以我便在仔细看看，记录一下自己看的时候不太懂的问题及一些解决的办法。安装这个没啥好说的，就按get_started文档来操作就好，只是在跑demo.py的时候我遇到了一个问题：import CV2与ros冲突了，解决办法网络上很多，直接在demo.py加一句话移除到python2.6即可。数据集准备对于kitti数据集而言，我们主要要将数据集整理成如下的格式，方便代码调用及运行操作：mmdetect

2022-05-04 15:14:51 2519

原创【论文阅读】【3d目标检测】TANet: Robust 3D Object Detection from Point Clouds with Triple Attention

论文题目：TANet: Robust 3D Object Detection from Point Clouds with Triple Attention代码开源出来的可以放心使用！文章在kitti上做的实验，发现对于小目标的检测效果很好作者也做了一些噪声的实验主要是在物体上加噪声，以此来证明网络的鲁棒性。这是文章的两个出发点。这是怎么做的呢？主要是作者认为考虑点级别、channel级别和voxel级别的检测器，对于小物体的效果是好的。因为这些小物体本身上面的点云就很小，如果和大物体例如车

2022-05-03 16:13:28 1138

原创【论文阅读】【2d目标检测】一些swin transformer的改进方案

随着swin transformer成为best paper。transformer用于2d图像领域更加引起人们的广泛关注，划分框框的方法确实有些笨拙。我也看了一些相关的文章，不过有些文章没有开源出代码来。记录一下：Vision Transformer with Deformable Attention论文连接：https://arxiv.org/abs/2201.00520v1已开源放心使用用deformable conv的方法来做transformer不稀奇，之前过def transfor

2022-05-03 15:40:47 2662

原创【论文阅读】【3d目标检测】HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object Detection

论文标题：HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object Detection源码地址：https://cvlab.yonsei.ac.kr/projects/HVPR延世大学出品文章认为voxel的方法和point的方法各有优劣，这是一个老生常谈的问题文章让读者耳目一新的地方是两者的一种新结合方式及一种省时省力的方式来调用point feature。老规矩上图：首先讲讲怎么提取voxel和point的特征：

2022-04-29 19:00:34 1758

原创【论文阅读】【3d目标检测】Embracing Single Stride 3D Object Detector with Sparse Transformer

论文标题：Embracing Single Stride 3D Object Detector with Sparse Transformer源码地址：https://github.com/TuSimple/SSTCVPR2022文章写得很好！文章从2d 3d目标检测目标的尺寸的不同入手，在2d目标检测中确实由于图像近大远小的尺寸关系存在着图像中物体尺寸长尾的问题：如coco数据集中，大小目标往往是呈现long-tail的分布，于是很多研究者才考虑从不同scale的feature map来进行

2022-04-28 23:19:19 2392

原创【论文阅读】【2d目标检测】set prediction的目标检测算法总结

目标的目标检测算法大都依赖于大量放置预定义的anchors，即使一些anchor free的算法也是通过gt内部的点来预测proposals。这样的通病是需要用nms处理大量的重叠框来达到dense to sparse的目的。那么，能不能有一个检测器直接暴力预测一个集合的candidate 然后对于这些candidate与gt进行一一匹配随后计算loss呢？随着算力的提升，我们发现这样的做法是可以的。下面便介绍set prediction 的一些论文：DETRDeformable DETRSpa

2022-04-26 19:48:38 1689

原创【论文阅读】【3d目标检测】An End-to-End Transformer Model for 3D Object Detection

论文标题：An End-to-End Transformer Model for 3D Object Detectionfacebook ai iccv2021源码地址：https://facebookresearch.github.io/3detrDETR同组出品，其实结构也很2d版本的基本一样，作者实验做的挺详尽的，不过还有一些地方我没看明白，记下来和大家交流一下：作者发现transformer2d的目标检测上有了良好的效果那么对于3d目标检测呢是否可以用同样的方法进行目标检测呢？也就是首

2022-04-25 21:00:20 1428 2

原创【论文阅读】【3d目标检测】Group-Free 3D Object Detection via Transformers

论文标题：Group-Free 3D Object Detection via Transformersiccv2021本文主要是针对votenet等网络中采用手工group的问题提出的改进我们首先回忆一下vote中group是怎么做的：首先选出vote种子后进行采样与聚类采样与聚类的方式一般是knn寻找vote种子的临近点请注意这里的选取的group数和聚类临近点的数目都是我们手工设计的那么这么设计会有一些什么不好的地方呢？首先vote数目是fps选取出来的为了选取到覆盖所有目标的vo

2022-04-24 19:22:52 4431

原创【论文阅读】【3d目标检测】Improving 3D Object Detection with Channel-wise Transformer

标题：Improving 3D Object Detection with Channel-wise Transformericcv2021浙江大学阿里达摩院著名的CT3d文章是在点上进行transformer，前面的文章曾说过在巨大的点云上进行tranformer计算量是巨大的所以这篇文章玩了点小聪明利用transformer设计refinement net文章基于利用原始点的特征足够来进行box refinement的假设来进行行文老规矩上图可以看到trans主要是用在了编码和解

2022-04-22 22:38:32 949 3

原创【论文阅读】【3d目标检测】Voxel Transformer for 3D Object Detection

论文标题：Voxel Transformer for 3D Object Detectioniccv2021现在点云的做法大多是在点云上进行例如首先将点云group化然后进行分组地transformer 而这篇文章提出了一种基于voxel的transformer 可以应用于基于voxel的检测器上方便进行voxel 3d环节的提取全局特征。老规矩上图！可以看出文章的主要创新之处在于3d的backbone 这就意味着我们可以将这个模块应用到所有的基于voxel的一阶段二阶段检测器上面。点

2022-04-22 19:21:49 3449 1

原创【论文阅读】【3d目标检测】point transformer

论文标题：Point Transformericcv2021用transformer做点云工作出于点云的随机性 transformer正好处理此类问题但是很显然对于大规模的点云直接使用transformer计算量是巨大的所以作者提出来一种新的transformer处理形式，那便是knn查找临近点。首先作者介绍了transformer的背景自注意力操作主要可以分为scalar和vector attentionscalar就是我们常说的注意力机制而vector attention则还

2022-04-22 10:30:17 819

原创【论文阅读】【3d目标检测】Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds

论文标题：Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Cloudscvpr2022transformer用在点云上面逐渐成为一种新的趋势本文就是用transformer做3d目标检测。作者首先分析了现有的一些方法直接在点云上逐个点用transformer是行不通的因为实在是太大了而现有的一些方法例如将点云group后做trans 又难免遗漏一些点将点云转化为voxel 进行

2022-04-21 22:57:57 2212

原创【论文阅读】【3d目标检测】pvgnet

论文标题：PVGNet: A Bottom-Up One-Stage 3D Object Detector with Integrated Multi-Level Features2021 cvpr作者主要是从voxel会导致在同一voxel内存在不同类别的点，而这样生成的voxel内含的feature是不能完全代表这个voxel内的物体的。作者从这个角度出发，结果在点的层面进行目标检测。首先是voxel和点的特征编码：对于voxel的编码，作者主要是利用voxelnet中的vfe环节，随机选取sa

2022-04-21 15:57:22 3153

原创【代码阅读】【3d目标检测】pv-rcnn代码阅读（一）数据准备

最近在看pvrcnn的源码，加深一下对论文的理解。源码的理解多亏了这位大佬的注释，感谢一下！首先我们看到train.py函数，在训练之前要对于数据进行一个预处理: train_set, train_loader, train_sampler = build_dataloader( dataset_cfg=cfg.DATA_CONFIG, class_names=cfg.CLASS_NAMES, batch_size=args.batch_size,

2022-04-14 15:56:50 1043

原创【论文阅读】【3d目标检测】Behind the Curtain: Learning Occluded Shapes for 3D Object Detection

论文标题：Behind the Curtain: Learning Occluded Shapes for 3D Object DetectionAAAI2022 南加大这篇文章的主题思想是认为现在的基于点云的目标检测方法实际上都是2.5D的方法而非3d的方法:原因是3d点云虽然具有3d的信息，但是点云检测到的物体往往是存在遮挡问题的。作者将物体上的点云遮挡情况划分为三个部分：外部遮挡：即目标前有遮挡物，如下图©所示。激光打到遮挡物后返回，导致目标形状缺失，©中红色区域即缺失区域。信号缺失：由于某

2022-04-10 16:19:30 3095 3

原创【论文阅读】【3d目标检测】voxel RCNN

论文标题：Voxel R-CNN: Towards High Performance Voxel-based 3D Object DetectionAAAI2021 香港中文大学施老师的团队本文是一个纯voxel的架构，作者讲这个故事主要是出于这么一个原因：位置精确的原始点对于高性能的3D目标检测并不重要，粗粒度的体素也足以完成高精度检测。作者通过实验发现：3d卷积对于ap提升十分必要，所以基于bev的second 精度不尽人意。且点与voxel的交互是很耗费时间的。那么能不能设计一个完全基于

2022-04-09 20:54:47 3444

原创【论文阅读】【3d目标检测】Not All Points Are Equal

论文题目：Not All Points Are Equal: Learning Highly Efficient Point-based Detectorsfor 3D LiDAR Point Cloudscvpr 2022如题目所说，本篇文章认为像pointnet++的sa层来采取下采样点或者像pvrcnn中的基于feature距离的代表点，随着下采样的进行，往往会遗漏一些前景目标，作者做了个实验：实验发现，随着下采样点的减少，car类别还能基本保持recall不变，但是一些小目标如行人和自行车

2022-04-09 16:49:16 2969

原创【论文阅读】【3d目标检测】Point Density-Aware Voxels for LiDAR 3D Object Detection

论文题目：Point Density-Aware Voxels for LiDAR 3D Object Detectioncvpr2022 多伦多大学这篇文章主要是对于现在voxel的方法忽略点云在roi中的稠密度的问题做了一定的工作。过去的一些工作要么就是进行规则的voxel操作，在每个voxel的格子中规则地提取feature，要么就是利用FPS考虑一些关键点，来进行特征的提取。这些关键点对于点云的稠密度有一定的识别作用：例如在稠密的地方，选取的点肯定多一些，这样便利于物体的识别。（例如PVRCN

2022-04-08 20:21:36 2113 3

原创【论文阅读】【3d目标检测】Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion

论文题目：Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion飞步科技 cvpr2022 kitti 3d目标检测排名第一可以看看文章主要是多传感器融合的目标检测文章不难理解，引入了一些新的我之前没有关注过的操作（可能还是融合的文章看的太少了）文章分为两个分支，首先是lidar分支这里主要采用了voxel rcnn的rpn来提取roi。image和lidar通过转换矩阵，对于pixel进行深度填

2022-04-07 20:56:50 2386 1

原创【论文阅读】【3d目标检测】从votenet到MLCVNet再到Pointformer

论文题目：MLCVNet: Multi-Level Context VoteNet for 3D Object Detection论文题目：3D Object Detection with Pointformer两篇文章要对比着来看首先，我们来看看mlcvnet做了些什么万物的起源：mlcvnet将attention模块引入了点云目标检测中：文章主要由三个部分组成：ppc ooc及GSC首先我们利用pointnet++作为backbone生成一系列的patches，这些patch的生成显然是通

2022-04-07 16:14:32 1426

原创【论文阅读】【3d目标检测】CIA-SSD

论文标题：CIA-SSD: Confident IoU-Aware Single-Stage Object Detector From Point Cloud2021AAAI 香港中文大学出品达到了不错的ap，速度也挺快的。老规矩，上图！文章框架很明了，主要是进行了三步操作：首先是encode利用second的框架，首先对于原始点云进行voxel化，随后ssc卷积生成dense feature map 这个dense是针对于z方向而言的。生成BEV feature map后输入到ssfa模块

2022-04-03 22:59:27 2211 6

原创【论文阅读】【3d目标检测】Lidar-RCNN

论文标题：LiDAR R-CNN: An Efficient and Universal 3D Object Detectorcvpr2021，图森乃严大佬组出品。文章主要探讨了3d目标检测中的proposal尺寸模糊问题，作者提出了两种即插即用的方案来对于proposal进行优化，文章并没有提出一种新的网络架构。不过我觉得这种行文方式和探讨问题的方法是值得我们学习的。老规矩，上图！首先作者对于目标检测器（pointrcnn pointpillar）等提出的proposal进行7d的优化，首先将他

2022-04-01 08:33:50 534

原创【论文阅读】【3d目标检测】PointPainting

论文标题：PointPainting: Sequential Fusion for 3D Object DetectionnuTommy出品，mit的自动驾驶公司。发表在cvpr2020本文是个fusion的目标检测，然而他实际上只是利用了来自camera的label或者score信息。如题目所言他是一个sequential 的网络。网络主要分为两个part。老规矩，上图！思路很简单，不过效果不错，而且是一个可以通用的模块。文章分为两个部分，首先是semantic segmentation。

2022-03-31 17:44:57 2692

原创【论文阅读】【3d目标检测】What You See is What You Get: Exploiting Visibility for 3D Object Detection

论文标题：What You See is What You Get: Exploiting Visibility for 3D Object Detectioncvpr2020 卡耐基大学及argo ai出品本文主要是探究了3d点云检测的可见性（visibility）和时序性的问题。利用可见性来进行数据增强，利用visibility来获取更多的feature来检测目标。文章以pointpillar为基准，与它进行了详细的对比，其数据增强及引入时序性作为feature增强的方法是值得学习的。老规矩，

2022-03-31 15:13:33 2462

原创【论文阅读】【3d目标检测】Density Based Clustering for 3D Object Detection in Point Clouds

论文标题：Density Based Clustering for 3D Object Detection in Point Cloudscvpr2020，新加坡国立大学一部分工作来自这个实验室2019年的一篇iros（标题是EPN: Edge-Aware PointNet for Object Recognition from Multi-View 2.5D Point Clouds），需要看懂这篇文章还需要看一下前文。看完这篇文章觉得有些地方写的有些不太规范，但是作者提出的非监督的方法及目标检测分任

2022-03-30 20:02:21 1565

原创【论文阅读】【3d目标检测】FAST pointrcnn

论文标题：Fast Point R-CNN还是记录。。。这篇文章后面与voxelnet进行了fps对比，究竟快在哪里，究竟为啥ap提升了？是本文想要探讨的东西。文章的思路很简单，分为两个阶段第一阶段考虑到pointnet类似的方法需要对于整个点云进行编码，计算量极大，而一些由2d生成proposals的方法又极度依赖于2d目标检测的效果，所以作者采用了voxel的形式进行VFE编码。不了解VFE的朋友可以先看看voxelnet作者发现每个格子中采用6个点，依赖8channel的mlp可以提取到

2022-03-29 22:29:07 837

原创【论文阅读】【3d目标检测】voxelnet

论文标题：VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection挺经典的一篇文章，苹果公司出品。挺久前看的了，感觉需要记录一下结构，方便以后查阅。网络架构分为三个部分： (1) Feature learning network, (2) Convolutional middle layers, and (3) Region proposal networkFeature learning network这部分

2022-03-29 21:38:37 600

原创【论文阅读】【3d目标检测】Center-based 3D Object Detection and Tracking

论文标题：Center-based 3D Object Detection and Tracking一篇基于中心的3d目标检测文章，2021年文章在waymo、nuscene上做了实验。还是比较充分的。和其他一些anchorbased的方法进行了对比突出了其优越性。废话不多说上图！该网络是一个二阶段的网络：RPN首先对点云进行voxel处理，从后面的实验可以看出作者用了两种backbone ——voxlenet和pointpillar，主要做法就是对于voxel后的点云进行3d卷积，最后

2022-03-29 10:48:15 1922

原创【论文阅读】【3d目标检测】HVnet

论文题目：HVNet: Hybrid Voxel Network for LiDAR Based 3D Object DetectionDeeproute出品，公司出品的文章，还是挺扎实的，trick比较多，可以学习的地方不少。我还是按我自己的思考把这篇文章记录一下。文章达到了很高的ap，然而拿他和其他的3d目标检测网络进行对比还是有些欺负人了，毕竟这篇文章设计多个detection head。论文主体框架如下：文章主要是对于不同分辨率的voxel进行特征融合，对于大小目标能有一个更强的检测效果。

2022-03-28 22:48:17 1295

原创【论文阅读】Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

point gnn

2022-03-27 21:56:32 1728

原创【论文阅读】Fitness NMS

论文题目：《Improving Object Localization with Fitness NMS and Bounded IoU Loss》发现这篇文章网络上资源较少，来写一下自己看完这篇文章的一些想法，可能不成熟，欢迎指正。谢谢！本文对于NMS进行了改进，提出了一个叫Fitness NMS的模块，在DeNet基础上进行的改进。文章介绍了一下nms，这里也简单写一下：这里score（.）函数用来评价选择bbox的置信度，而same（.）用来检测两个框的iou值。因此算法的核心思想就是：对

2022-02-22 19:22:04 706

原创【论文阅读】2d目标检测：综述

最近在恶补2d目标检测的文章，把他们整理了一下，写一下综述，方便以后查看。写得比较简略，主要是自己对于一些网络的理解。

2022-02-16 21:49:41 2991

转载【杂七杂八】SyntaxError: (unicode error) ‘unicodeescape‘ codec can‘t decode bytes in position 2-3: truncat

File "C:\Users\seivl\Desktop\deep-learning-for-image-processing-master\pytorch_classification\Test7_shufflenet\train.py", line 123 default="C:\Users\seivl\Desktop\deep-learning-for-image-processing-master\data_set\flower_data\flower_photos") ..

2021-12-05 19:46:54 181

原创【代码阅读】【2d classification】mobilenet

最近看了一些classification网络的源代码，一些比较有亮点的思想的源代码阅读了一下，把他们总结在这个分类里面。这篇blog写一下关于mobilenet。对于一些移动设备，参数较少的net需要被构建起来。这时候我们的mobilenet 一个精简性能又还过得去的net应运而生。作者在文章中对于mobilenet和一些常用的cnn进行了一系列对比，感兴趣的可以自己去查看，这里就不做赘叙。我们来看一下mobilenet v2和 v3。Mobilenet V2在我看来mobilenet相比于之前

2021-12-02 18:10:48 491

原创【论文阅读】Pothole Detection Based on Disparity Transformation and Road Surface Modeling

《Pothole Detection Based on Disparity Transformation and Road Surface Modeling》这篇文章讲述了道路损坏基于视差图的语义分割及建模方法，表现除了良好的鲁棒性，作为review调研的一部分我初略看了一下，把大概的方法整理放在下面，方便以后查看。直入正题，把文章的主题框架放在这里。类似于之前的文章，这篇文章对于视差图给出两个最优化能量函数。对于视差图进行transformation至视差图准鸟瞰图的形式，方便利用道路相似性进行s

2021-11-29 20:03:56 605 2

空空如也

空空如也