![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能
文章平均质量分 83
蓝田生玉123
这个作者很懒,什么都没留下…
展开
-
【3D目标跟踪】EagerMOT: 3D Multi-Object Tracking via Sensor Fusion阅读笔记(2021)
1、为什么要做这个研究(理论走向和目前缺陷) ?2D图像上的检测可以看得更远,而且检测更准,但是缺乏距离测量。3D点云有精确的距离测量,但是远距离的物体扫到的点就很少了,经常出现漏检,故考虑融合3D检测距离很准而2D检测看得更远的优势,提高3D目标跟踪对遮挡、远距离目标跟踪的效果。2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?1)3D检测和2D检测关联:点云和图像都有各自的检测器,3D检测器获得的3D框先投影到2D图像上,基于2D IoU找到对应2D检测器输出的2D框(即同一目标的3D框和原创 2021-10-26 22:14:42 · 5380 阅读 · 2 评论 -
【3D目标跟踪】Probabilistic 3D Multi-Modal, Multi-Object Tracking for Autonomous Driving阅读笔记(2020)
1、为什么要做这个研究(理论走向和目前缺陷) ?之前的3D多目标跟踪,相似度计算基本都不考虑目标的几何和外观特征,也很少会把点云和图像特征融合在一块做,生命周期管理无一例外都是基于经验来设置一个固定参数。不好。2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?主要创新就是加了三个可训练的模块:1)特征融合模块:融合图像(maskrcnn)和点云(centerpoint)的特征,计算检测和跟踪的特征相似度。2)距离组合模块:组合融合的深度特征距离和马氏距离作为相似度度量。3)跟踪初始化模块:基于原创 2021-10-14 17:30:38 · 1493 阅读 · 0 评论 -
【3D目标跟踪】AB3DMOT阅读笔记(2020)
1、为什么要做这个研究(理论走向和目前缺陷) ?3D跟踪往往都太慢了,能否用传统方法组合实现比较好的结果。2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?没啥新东西,就是3D卡尔曼滤波(匀速运动模型)+匈牙利匹配。开发了一个3Dmot评估系统,并提出3个新的3D mot评估指标sAMOTA,AMOTA,AMOTP。3、发现了什么(总结结果,补充和理论的关系)?KITTI上达到207.4FPS,效果也不错。摘要:很多3Dmot上的研究都不太关注计算量和系统复杂度,导致的结果就是这样研究出原创 2021-10-12 18:27:47 · 2265 阅读 · 8 评论 -
【2D目标跟踪】DeepSort阅读笔记(2017)
1、为什么要做这个研究(理论走向和目前缺陷) ?sort算法虽然很快,但是对于长期遮挡会出现频繁的id切换问题。MHT和JPDA,一旦遇到密集场景,其计算量会剧增,准确性也不够令人满意。2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?在sort算法(卡尔曼滤波+匈牙利匹配)基础上,加入了用深度网络提取的表观特征,联合之前的运动信息共同作为相似度计算依据,其中表观特征对于长期遮挡后再重新匹配上效果很好,而运动信息对于稳定状态估计不确定性比较低时效果很好(相机不乱动)。此外,还考虑了匈牙利算法的原创 2021-10-12 13:06:21 · 889 阅读 · 0 评论 -
【2D目标跟踪】SIMPLE ONLINE AND REALTIME TRACKING阅读笔记(2017)
1、为什么要做这个研究(理论走向和目前缺陷) ?之前的算法MHT或者JPDA,虽然关联效果很不错,但是在密集、遮挡严重的场景计算复杂度大幅增加,无法实时。2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?sort算法,:检测:faster rcnn; 状态参数:目标中心位置(u,v),中心位置速度(u’,v’),面积,高宽比;运动模型:匀速直线运动;状态更新:卡尔曼滤波;相似度度量:IOU;匹配算法:匈牙利匹配。3、发现了什么(总结结果,补充和理论的关系)?sort算法核心就是把卡尔曼滤波原创 2021-10-11 20:58:28 · 414 阅读 · 0 评论 -
【3D目标检测/跟踪】Center-based 3D Object Detection and Tracking阅读笔记(2021)
1、为什么要做这个研究(理论走向和目前缺陷) ?之前做3D目标检测大多基于Anchor来做,不好表达,且不利于下游任务,如跟踪。2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?本文提出将3D目标表达为一个中心点,设计了两个模型,单阶段的CenterPoint和两阶段的CenterPoint。单阶段CenterPoint主干网络用VoxelNet或PointPillar,输出的特征图加一个2D卷积输出目标的中心点(中心点设置及计算损失参考CornerNet),以及对每个点回归3D框尺寸、朝向、原创 2021-09-22 23:05:27 · 2798 阅读 · 2 评论 -
【2D/3D目标检测】STD: Sparse-to-Dense 3D Object Detector for Point Cloud阅读笔记(2019)
1、为什么要做这个研究(理论走向和目前缺陷) ?主要是为了减少计算量和节约计算时间而设计。2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?每个3D点上的anchor设置成球形,避免了朝向的预定义,也就避免了每个点要设置多个anchor。根据每个3D点预测的得分做NMS得到候选的球形候选区(iou计算是根据交集点数/并集点数),然后对球形候选区的点特征输入到pointnet中预测一个长方体形候选区,然后对长方体形的点随机选一部分做体素化,然后VFE层提取特征,得到密集的体素特征,然后输入到全连原创 2021-09-07 22:41:35 · 411 阅读 · 2 评论 -
【3D目标检测】Multi-Task Multi-Sensor Fusion for 3D Object Detection阅读笔记(2019)
1、为什么要做这个研究(理论走向和目前缺陷) ?多传感器融合向来不是一个简单的事,融合方式设计的不好不但可能不会信息互补,还有可能各传感器的缺点都继承下来,效果更差。2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?做点云和图像的融合。点云利用的是BEV特征和图像特征借助3d点这个中间媒介进行关联,然后把关联上的图像像素点特征加到BEV特征上去,这是稀疏point-wise融合,在特征提取主干网络阶段实现。利用BEV特征预测的3D候选区分别投射到BEV特征图和图像特征图上,得到的BEV roi原创 2021-08-24 21:06:52 · 975 阅读 · 0 评论 -
【2D/3D目标检测】Objects as Points阅读笔记(2019)
1、为什么要做这个研究(理论走向和目前缺陷) ?有anchor的方法往往需要nms后处理,无法端到端的训练。无anchor的方法,往往也无法避免nms,且往往需要做非常复杂的关键点匹配(如cornernet、extremnet)。2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?提出用关键点预测的方法(即预测热图)重新建模目标检测。将检测目标视为其边界框的中心点,根据热图确定中心点的问题,由于中心点只有一个正例热峰,避免了nms去重,其大如中心点位置偏移、尺寸、角度等都是在此中心点的基础上预测原创 2021-08-20 17:40:16 · 419 阅读 · 0 评论 -
【3D目标检测】HDNET: Exploiting HD Maps for 3D Object Detection论文综述(2018)
1、 为什么要做这个研究(理论走向和目前缺陷) ?之前的3D目标检测都不用高精地图,而是直接基于感知设备获得的数据做感知,高精地图一般只用于规划,白白浪费了这么简单易得的提升检测效果的方法。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?还是将点云进行体素化分成3D网格(占有网格,即网格中有点记为1,无点记为0),但是现有点云减去了地图中的地面高度信息,以实现将有坡度的地面拉直。同时增加了1个点云强度通道,1个来自地图中的道路区域通道。将这些通道连接在一起作为输入,做3D目标检测。考虑到并原创 2020-11-18 11:07:06 · 1295 阅读 · 2 评论 -
【3D目标检测】Deep Continuous Fusion for Multi-Sensor 3D Object Detection论文综述(2018)
1、 为什么要做这个研究(理论走向和目前缺陷) ?这是一篇比较早的做点云和图像融合做3D目标检测的论文,以前的融合没有做多层融合的,融合过程也过于单一,这篇论文提出了比较有新意的融合思路。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?双流,一个处理点云的鸟瞰图,一个处理图像,这里的关键是如何将鸟瞰图特征和图像特征对应起来然后融合(对应元素特征相加),3D点云恰好就是这个负责联系鸟瞰图特征和图像特征的媒介。具体说来就是,每个鸟瞰图像素点可以找到对应的点云中的3D点(找不到的化取最近的),然原创 2020-11-17 12:03:53 · 681 阅读 · 0 评论 -
【3D目标检测】PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation论文综述(2018)
1、 为什么要做这个研究(理论走向和目前缺陷) ?做3D目标检测的大部分都是要面向自动驾驶的,这论文找了个理由说是“通用”,不限于数据集比如lidar-image,或者rgb-d,感觉很牵强。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?不太清楚这论文出来时F-PointNet出来没,感觉都是一个风格的,但是这个论文在预测3D框时同时融合了图像特征和点云特征,融合方法就是简单的concatenate。论文中有一些trick比如pointnet中不用BN,回归损失函数的设计值得借鉴。3、原创 2020-11-15 16:43:57 · 938 阅读 · 1 评论 -
【3D目标检测】PIXOR: Real-time 3D Object Detection from Point Clouds论文综述(2018)
1、 为什么要做这个研究(理论走向和目前缺陷) ?做3D卷积计算量太大,2D CNN信息损失又太多,考虑可以输入是3D体素但是做的是2D卷积。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?输入是36个通道的3D体素数据(包括35个通道的3D体素特征,每个体素网格表示这个网格中是否有点云中的点,有记为1无记为0。还有1个通道代表体素网格反射率)。然后做2D卷积,在鸟瞰图下预测2D框(即不预测z值和框的高度),包括中心点坐标,航向角和框宽和高。不用anchor,以缩小版gt框内的像素点为正例原创 2020-11-14 18:34:20 · 311 阅读 · 0 评论 -
【3D目标检测】VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection论文综述(2017)
1、 为什么要做这个研究(理论走向和目前缺陷) ?这时的基于3D CNN来做的3D目标检测体素化之后全都是手工设计特征表达,即体素网格中的点一般选取最高点z值、网格中数目等作为该体素网格表达,手工设计的特征表达往往有各种局限,没办法发挥数据本身的潜力。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?VoxelNet是第一个采用学习的方式(pointnet)来进行体素网格中特征表达的网络,有效提升了每个体素网格中的特征表现力。实现过程中还有一些针对稀疏点云数据的trick,比如采用hash实原创 2020-11-14 12:41:38 · 285 阅读 · 0 评论 -
[3D目标检测] RT3D: Real-Time 3-D Vehicle Detection in LiDAR Point Cloud for Autonomous Driving论文综述(2018)
本来以为有很多亮点,读了之后发现没啥亮点,基本就是R-FCN的3D版,效果也不行,也没有快到实时的地步。原创 2020-11-12 21:05:34 · 488 阅读 · 0 评论 -
【3D目标检测】Multi-View 3D Object Detection Network for Autonomous Driving论文综述(2016)
以后工作要做自动驾驶环境感知了,从今天开始更新3D目标检测相关的论文综述,刚把爹!摘要:本文提出MV3D,能够融合LIDAR和RGB图像信息以预测有向3D边界框。MV3D将点云用多视角(multi-view)表征,模型包括两个子网络,一个子网络基于点云数据的鸟瞰图生成3D候选区,另外一个子网络用于多视角特征的深度融合(deep fusion)。1、 引言本文的关注重点在用如何充分利用雷达和图像数据提供的信息。最近的基于lidar的方法主要是先把点云体素化然后用3D CNN分类回归,或者在点云前视图中使原创 2020-11-11 21:57:02 · 1198 阅读 · 0 评论 -
[目标检测]Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample S
1、 为什么要做这个研究(理论走向和目前缺陷) ?Anchor based 和Anchor free算法的性能差距原因不明。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?通过比较两个比较有代表性的anchor based和anchor free的单步检测器retinaNet和FCOS,先一步步控制变量,最后得出差距原因在于正负例anchor(box/point)的采样策略不同造成的差距,至于回归的是anchor box的偏移还是anchor point距离预测框四边界的距离,并不重要。还原创 2020-06-11 15:04:30 · 2048 阅读 · 0 评论 -
【目标检测】FCOS: Fully Convolutional One-Stage Object Detection论文综述2019
1、 为什么要做这个研究(理论走向和目前缺陷) ?基于anchor的检测器,对anchor的设计要求很麻烦,训练过程还有很多跟Anchor相关的计算比如正负例anchor判断时的iou计算。故考虑去除anchor,目前anchor free的方法典型如yolov1,由于其只考虑目标中心位置进行框回归,召回率很低,还有就是CornerNet,基于关键点检测的方法,但是在配对关键点时很麻烦。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?提出FCOS类似于语义分割的思想,结构同RetinaNe原创 2020-06-10 15:32:25 · 658 阅读 · 1 评论 -
【目标检测】 SNIPER: Efficient Multi-Scale Training阅读笔记
1、 为什么要做这个研究(理论走向和目前缺陷) ?Sniper是snip的改进落地版本,针对的问题还是超小/大目标的检测(分割)问题,但是sniper更加具备工程上的可行性。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?Sniper从三层的图像金字塔中提取相同分辨率大小(512*512)的crop(文中成为chips),这些chips包括前景chips和背景chips,前景chips的筛选根据实例的大小以及实例和crop的iou值确定,背景chips根据一个rpn网络提取出proposa原创 2020-06-05 13:53:55 · 270 阅读 · 0 评论 -
【目标检测】Snip论文解读
1、 为什么要做这个研究(理论走向和目前缺陷) ?本文针对的还是目标检测的老大难问题:超小目标检测(或超大目标)。现存的对小目标检测无非是多尺度输入路线(图像金字塔),多尺度特征层独立预测路线(ssd,ssh),多尺度特征融合路线(inception(大感受野), RFB,即空洞卷积,u-net等),还有上述综合即多尺度特征融合即多尺度特征独立预测(FPN,PANet等),他们的问题就是对极小或极大目标依然无法很好的检测。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?本文提出依然用图像金原创 2020-06-04 21:52:57 · 842 阅读 · 1 评论 -
[人脸识别]DeepFace: Closing the Gap to Human-Level Performance in Face Verification论文综述(2015)
摘要:现代人脸识别的套路就是:检测->对齐->表示->分类。本文主要研究对齐和表示这两歩。为了应用分段的仿射变换,我们使用了3D人脸建模,最终通过一个9层的深度神经网络获得了人脸表达。这个网络并没有用标准的卷积层,而是用来几个不同享权重的局部全连接层,最终模型参数有120,000,000 (120M)个。在LFW数据集上基于准确的模型对齐训练之后的模型的表达能够很好推广到非受限环境中。1、 引言人脸识别技术意义重大,之前的技术都不行,我们的提出的DeepFace第一次采用深度学习技术做原创 2020-05-10 18:22:18 · 587 阅读 · 0 评论 -
FaceNet: A Unified Embedding for Face Recognition and Clustering论文综述(2015)
1、 为什么要做这个研究(理论走向和目前缺陷) ?以前的人脸验证太复杂,不直接(用的中间瓶颈层表征人脸,还有各种前处理、PCA降维以及SVM分类等)。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?直接优化跟当前任务相关的损失函数,提出用嵌入embedding来表征人脸,有利于人脸识别,人脸验证,人脸聚类等任务的统一。提出三元组损失。3、 发现了什么(总结结果,补充和理论的关系)?嵌入向量的维度不需要太高,三元组损失的三个员的选择很重要,CNN网络也很重要等。摘要:大规模的人脸识别原创 2020-05-09 17:34:35 · 632 阅读 · 0 评论 -
Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient CNN论文综述(2016)
1、 为什么要做这个研究(理论走向和目前缺陷) ?在点云数据集上做3D目标检测这是还没大爆发。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?本文思想基本全部借鉴了Vote3D,即用基于投票的滤波器提取特征,这种卷积只在非零的3D网格中做计算,故能够加速。然后ReLU激活。损失函数还要用L1正则化。其中ReLU激活有利于维持中间层特征的稀疏性,能够加速训练,L1正则化能够保证模型...原创 2020-05-01 00:49:51 · 1103 阅读 · 0 评论 -
深度学习中的数据预处理操作
常用预处理方法1、零均值零均值是数据预处理最为常用的方法。即将每一维原始数据减去这一维数据的均值,将结果替代原始的数据。预处理的结果是每一维数据的均值是0。X -= np.mean(X,axis = 0)2、归一化(normalization)归一化就是将原始数据归一到相同的尺度,有两种归一化的方法:1)先对每一维数据进行零均值,然后除以每一维数据的标准差。X -= np.mean...原创 2020-04-24 02:40:10 · 1556 阅读 · 0 评论 -
Dual Path Networks(2017)综述
1、 为什么要做这个研究(理论走向和目前缺陷) ?通过利用rnn探索resnet的相加和densenet的连接的本质作用。根据他们的有点设计一个融合他们各自优点的网络。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?做各种假设的前提下分别将resnet和densenet等效为rnn,通过观察等效后的rnn网络得出resnet有利于特征重用,Densenet有利于探索新特征。根据这...原创 2019-12-10 21:47:45 · 298 阅读 · 0 评论 -
Feature Pyramid Networks for Object Detection(2016)论文综述
1、 为什么要做这个研究(理论走向和目前缺陷) ?图像金字塔太耗计算及存储资源,不用图像金字塔又对小物体检测不好。直接从低层特征预测不好,因为语义信息不足。直接从高层特征预测,语义信息够了但是多次下采样使得定位不准。故提出自顶向下的特征金字塔结构。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?自顶向下的特征金字塔+横向连接(元素对应相加),融合了高层的语义信息和低层的位置信息。...原创 2019-12-08 11:42:48 · 217 阅读 · 0 评论 -
Densely Connected Convolutional Networks(2017)
Densely Connected Convolutional Networks(2017)1、 为什么要做这个研究(理论走向和目前缺陷) ?Resnet的直接sum可能会阻碍信息流动。减轻梯度消失,增强特征传播,减参数。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?设计DenseNet,跟resnet主要不同就是改直接Sum为concatenate和前馈密集连接。3、 发...原创 2019-12-05 22:17:08 · 182 阅读 · 0 评论