目标检测
文章平均质量分 69
cv_family_z
这个作者很懒,什么都没留下…
展开
-
车牌识别“Towards End-to-End Car License Plates Detection and Recognition with Deep Neural Networks”
车牌检测和识别,很久没关注了。作者提出了一个一体化的深度网络,同时进行车牌的检测和识别,在识别时不需要字符分割,而是使用带有CTC的RNN网络,具体的实现细节在论文的参考论文【14】中。模型首先使用卷积层应用到输入图像,之后提取车牌proposals,接下来使用RoI池化层和MLP进行车牌检测和bbox回归,同时使用带有CTC的RNN进行牌照识别,网络的结构如图1所示: 车牌检测网络: 车牌检测原创 2017-10-09 17:15:32 · 4717 阅读 · 18 评论 -
视频目标检测 - Object Detection from Video Tubelets with Convolutional Neural Networks
CVPR2016code: https://github.com/myfavouritekk/vdetlib基于静态图像的CNN目标检测问题已经很多人研究。而基于视频的CNN目标检测问题则是刚刚起步。主要问题是目标检测和跟踪的有效结合。针对视频中的目标,单独的检测和单独的跟踪都会有波动。我们的视频目标检测框架图: 主要包括两个模块: 1 a spatio-temporal tubelet p原创 2016-10-20 15:28:01 · 13416 阅读 · 4 评论 -
Deep Residual Learning for Image Recognition
这是微软方面的最新研究成果, 在第六届ImageNet年度图像识别测试中,微软研究院的计算机图像识别系统在几个类别的测试中获得第一名。本文是解决超深度CNN网络训练问题,152层及尝试了1000层。随着CNN网络的发展,尤其的VGG网络的提出,大家发现网络的层数是一个关键因素,貌似越深的网络效果越好。但是随着网络层数的增加,问题也随之而来。首先一个问题是 vanishing/exploding g原创 2015-12-16 15:13:37 · 14938 阅读 · 1 评论 -
SSD: Single Shot MultiBox Detector
本文算是 Faster R-CNN, YOLO 算法的改进版吧,它将检测和分类融合到一起去了,对每个可能的检测框赋予一个类别的概率。本文的速度到底有多快,也没说啊我们将整个特征层分为 4*4 , 8*8 个网格,对每个网格位置,计算可能类别可能尺寸的概率,prior。 三个类别的检测效果 PASCAL VOC2012 test detection results原创 2016-01-07 10:50:15 · 14878 阅读 · 4 评论 -
Exploit All the Layers: Fast and Accurate CNN Object Detector with Scale Dependent Pooling 之再阅读
CVPR2016Exploit All the Layers: Fast and Accurate CNN Object Detector with Scale Dependent Pooling and Cascaded Rejection Classifiers本文对基于CNN的物体检测提出了两个技巧来提高速度和精度: 1) scale-dependent pooling (SDP) 就是根原创 2016-07-25 11:39:07 · 2393 阅读 · 2 评论 -
SSD: Single Shot MultiBox Detector 之再阅读
SSD: Single Shot MultiBox Detector 第一版 8 Dec 2015,第二版是30 Mar 2016,主要改进是内容更加详实,实验更加丰富,尤其是和 Faster R-CNN 和 YOLO 做了对比,其优势比较明显。 SSD 一句话就是速度快,效果好! SSD把 候选区域提取取消了。The fundamental improvement in speed comes f原创 2016-07-14 10:58:27 · 20594 阅读 · 1 评论 -
Faster R-CNN 之再阅读
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks开源代码 https://github.com/ShaoqingRen/faster_rcnn MATLAB https://github.com/rbgirshick/py-faster-rcnn PythonFast原创 2016-07-12 16:54:38 · 2982 阅读 · 2 评论 -
目标检测“Exploit All the Layers: Fast and Accurate CNN Object Detector with Scale Dependent Pooling and”
在Fast-RCNN的基础上,设计了两种改进方法,一是尺度相关的池化SDP用于提升小尺寸物体检测,二是逐层级联拒绝分类器CRC用于提速。尺度相关池化 方法是基于Fast-RCNN的,SDP根据每个proposal的尺寸,从对应的卷积层池化特征。与SDP连接的fc层有与尺寸相关的参数,结构如下图所示: SDP模型的三个分支是conv3,conv4,conv5,每个分支包含2个后续的fc层,ReLU原创 2016-04-28 11:41:24 · 2996 阅读 · 0 评论 -
HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection
提出了一种Proposal提取和目标检测一体的网络,Faster-rcnn中的proposal提取网络RPN由于特征图的粗糙,在小目标及大IOU阈值情况下的检测率低。论文提出了HyperNet,综合低层,中间层和高层特征获得了较高的recall率。HyperNet的示意图如下所示: HyperNet网络结构 先将全图送入卷积层生成激活图,累积多层特征图压缩至归一化空间,即Hyper特征,之后pr原创 2016-04-12 16:58:19 · 3748 阅读 · 0 评论 -
目标检测--PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection
https://www.arxiv.org/abs/1608.08021本文针对多种类目标检测这个问题,结合当前各种最新技术成果,达到很好的结果。针对整体检测框架:CNN feature extraction + region proposal + RoI classification 我们主要优化 feature extraction,因为 region proposal part 速度比较快原创 2016-09-05 10:53:42 · 9744 阅读 · 1 评论 -
目标检测“Speed/accuracy trade-offs for modern convolutional object detectors”
使用了几种成熟的目标检测结构,Faster-RCNN,R-FCN,SSD,与不同的特征提取网络组合,如VGG16,Resnet-101,Inception V2,Inception V3,Inception Resnet,MobileNet。探讨检测率与检测时间之间的关系。不同的组合得到的结果 不同的组合对不同大小目标的结果 Faster-RCNN,R-FCN的组合降低proposal数目的结果原创 2016-12-06 15:50:54 · 2723 阅读 · 1 评论 -
目标检测“Feature Pyramid Networks for Object Detection”
为了在不同尺度检测物体,特征金字塔很重要。作者提出了一个具有横向连接的自上而下的结构,来构造每个尺度的高层语义特组图。这个结构成为特征金字塔网络(FPB)。几种不同的检测结构对比,图(a)是使用图像金字塔构造特征金字塔,图(b)只使用一个尺度的特征进行快速检测,图(c)使用深度卷积结构的不同特征检测,图(d)是论文提出的具有自下而上,自上而下和横向连接结构的特征金字塔网络: 论文的目标是构造一个每原创 2017-03-31 15:49:07 · 2326 阅读 · 0 评论 -
目标检测“Focal Loss for Dense Object Detection”
基于RCNN的两步检测器精度高,但速度慢,单步检测器如YOLO,SSD速度快,但精度有所降低。作者认为正负样本不平衡是导致单步检测器精度降低的主要愿意,论文对交叉熵损失函数进行改进,降低易分类样本的权值,即Focal loss,使用RetinaNet验证Focal loss。RetinaNet可以超过两步检测器的精度,且速度跟单步检测器差不多。Focal Loss是动态缩放的交叉熵损失函数,随着正确原创 2017-09-22 17:04:54 · 2932 阅读 · 0 评论 -
物体检测“DSOD: Learning Deeply Supervised Object Detectors from Scratch”
code: https://github.com/szq0214/DSOD 亮点是不需要使用ImageNet预训练,设计了一些训练的准则,一个是深度监督(deep supervision),由DenseNet得到致密的层级连接想法,基于不需要proposal的考虑,选取SSD作为改进的基本版本。DSOD 1. DSOD框架 与SSD类似,是一个多尺度不需要proposal的检测框架。网络有两个原创 2017-08-22 16:18:12 · 3274 阅读 · 0 评论 -
目标检测“Perceptual Generative Adversarial Networks for Small Object Detection”
解决小目标检测问题的一般方法:提高输入图像的分辨率,会增加运算量;多尺度特征表示,结果不可控。 方法提出 论文使用感知生成式对抗网络(Perceptual GAN)提高小物体检测率,generator将小物体的poor表示转换成super-resolved的表示,discriminator与generator以竞争的方式分辨特征。Perceptual GAN挖掘不同尺度物体间的结构关联,提高小物原创 2017-08-17 15:20:38 · 12326 阅读 · 42 评论 -
车辆检测“Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monoc”
Deep Many Task,同时进行车辆检测,部件定位,可视化特征描述及3D维度估计。基于coarse-to-fine的目标proposal结构提升检测性能。Deep MANTA可以定位不可见的车辆部位。应用 3D车辆定位和方向估计可用于估计车辆速度和方向。论文第一个贡献是使用车辆特征点编码3D车辆信息,车辆是刚性的,可通过回归的方法预测隐藏的部分。结合3D数据集,将3D点投影到2D图像中的车辆原创 2017-08-01 11:41:00 · 2755 阅读 · 0 评论 -
图像分割“Instance-aware Semantic Segmentation via Multi-task Network Cascades”
模型包含三个网络:实例分辨,掩码计算,目标归类。三个网络形成级联的结构。运行时间上,使用VGG-16一张图片需360ms。在MS COCO 2015分割比赛中获取第一名。将instance-aware语义分割分成三个子任务:1.实例分辨,使用类别无关的bbox表示实例;2.掩码估计,估计每个实例的像素级掩码;3.目标分类,预测每个掩码级别实例的类别。论文提出的多任务学习时级联结构,下一阶段依靠上一阶原创 2017-04-18 16:18:06 · 3291 阅读 · 3 评论 -
PVANET 之再阅读
旨在降低计算量,重新设计了特征提取部分,设计原则是“通道少层数多”,网络比较深但是比较瘦,使用了batch norm,residual 连接,学习率更新策略等技术。在VOC2012上 rank-2,运行时间在i7-6700K CPU上750ms/帧,在Titan X GPU上运行时间45ms/帧。其他增强性能方法:在CNN的前几层使用C.ReLU,降低一半计算量 CNN前几层,输出节点激活一般有原创 2017-05-19 16:01:21 · 5077 阅读 · 0 评论 -
目标检测“A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection”
如何训练一个目标检测器,对遮挡和形变鲁棒,目前的主要方法是增加不同情况的图像数据,但这些数据有时又特别少。作者提出使用对抗生成有遮挡或形变的样本,这些样本对检测器来说比较困难,使用这些困难的正样本训练可以增加检测器的鲁棒性。与Fast-RCNN比较,在VOC2007上,mAP增加了2.3%,VOC2012上增加了2.6%。不同遮挡或形变的物体如下图所示: Fast-RCNN检测器损失函数有两项,s原创 2017-04-13 11:41:08 · 6102 阅读 · 1 评论 -
车辆检测“DAVE: A Unied Framework for Fast Vehicle Detection and Annotation”
检测车辆的同时对车辆进行属性标记,DAVE包括两个网络,一个快速proposal网络FVPN,和一个属性学习网络ALN,属性学习获取车辆的姿态,颜色和类型。DAVE实现的功能如下图所示:快速车辆候选区域提取网络FVPN FVPN是一个浅层全卷积网络,有三个卷积层,最大池化和ReLU与前两个卷积层相连,第三个卷积层分成3个1*1的卷积层分支,conv_fc_class输出正负卷积softmax概率,原创 2017-04-05 15:24:47 · 2309 阅读 · 12 评论 -
目标检测“Object Detection Using Generalization and Efficiency Balanced Co-occurrence Features”
ICCV15的文章,内容比较简单,但是boosting的方法,文章使用了Haar,HOG,LPB的共生特征,训练boosting时考虑了泛化和检测率平衡,让强特征在有高检测率的同时有好的推广性能。特征的描述比较简单,这里使用了灰度共生矩阵的描述方法,将特征用共生的方法描述,即: 形式如下图所示: 泛化和检测平衡 好的特征对应低的分类错误率,即: 使用共生特征,离得远的图像对有可能带来噪声,使原创 2016-02-24 11:17:17 · 2153 阅读 · 1 评论 -
人脸检测“Face detections without bells and whistles”
使用了两种简单的方法:ICF和DPM做人脸检测。主要贡献: 1.在使用恰当的情况下,普通的DPM可以超越复杂DPM的结果; 2.使用ICF做人脸检测,几个固定的模板可以达到很好的效果;数据库: AFLW:26 000个标记人脸,AFW:205bbox,FDDB:2845 椭圆标记 评价标准:IOU>0.5,AP。ICF detectorbaseline 方法:SquaresChnFtrs-5原创 2015-12-09 14:59:09 · 2923 阅读 · 0 评论 -
Fast detection of multiple objects in traffic scenes with a common detection framework
IEEE Transactions on Intelligent Transportation Systems. 2015本文使用一个通用框架来检测三个东西:车、交通信号标志、骑自行车的人。 aggregated channel features + Shrinkage version of AdaBoost 系统大的框架如下: A. Object Subcategorization 对原创 2015-12-04 14:44:35 · 1819 阅读 · 0 评论 -
BING
生成目标proposal的快速方法,为接下来的detectors提供可能的目标区域。使用归一化的梯度分辨广义目标,需要将输入图像窗口缩放到8*8,计算64d的归一化梯度特征,之后将梯度进行二值化,进行一些简单的位运算,在voc2007上训练测试,在~1000个proposal时检出率为96.2%。 方法描述: 使用BING计算图像窗口的objectness得分,为了寻找图像中的广义目标,对预定义原创 2015-07-29 17:06:07 · 1713 阅读 · 0 评论 -
论文提要“Hypercolumns for Object Segmentation and Fine-grained Localization”
动机: CNN网络的最后一层对类别层的语义信息比较敏感,而对扰动(姿态,光照,关节和位置)不敏感。细粒度的分析包括目标分割,姿态分析等,直接使用最后一层不是最优的选择。 最后一层的特征在空间上比较粗糙,对准确定位有影响。文章提出了超列(Hypercolumn),即对应像素的网络所有节点的激活串联作为特征,进行目标的细粒度定位:同时定位和分割SDS,关键点定位和组件标记。超列的原理图如下所示:原创 2015-08-26 17:01:25 · 9914 阅读 · 9 评论 -
论文提要“Fast Feature Pyramids for Object Detection”
很多目标检测器需要对图像进行多尺度精细搜索,传统方法的瓶颈是对每个尺度分别计算特征,本文使用比较大的间隔octave计算特征,之后对octave之间的尺度特征进行推算,节省了多尺度特征计算的时间,将目标检测提到实时。动机:目前的目标检测方法如DPM,通常需要使用多通道,精细尺度采样及增强的归一化方法提升准确率,导致计算量大大增加。自然场景图像存在碎片统计特征,可以用于不同尺度直接的结构预测。多尺度梯原创 2015-08-25 17:01:22 · 9679 阅读 · 9 评论 -
论文提要“Pedestrian Detection aided by Deep Learning Semantic Tasks”
对于行人检测,以往的深度学习将其作为二值分类问题,这样易与困难的负样本混淆。本文将行人检测细分为行人属性(背部,性别和视角)和场景属性(车辆,树木等),目标是在高层特征空间分离或聚合相似的属性结构,如图2(c)所示。 为了避免大量负样本的标记,作者使用了数据库背景场景分割的结果。提出TACNN使用多种数据库学习多类问题。不同数据的背景B数据分布不同,作者transfer了两类场景属性,包括共享的属原创 2015-08-03 17:47:06 · 2759 阅读 · 1 评论 -
论文提要"Fast R-CNN"
快速R-CNN,对R-CNN和SPPNet的加速,使用multi-task 进行单步训练,网络使用的是VGG16。R-CNN对每个proposal单独warp处理,SPPNet将warp放到最后一个卷积层的后面,将多个池化网格的结果串联到SPP中。SPPNet的微调算法只能更新全连接层,限制了深层网路VGG16发挥性能。 主要贡献: 1.比R-CNN检测率更高 2.单步训练,使用multi-c原创 2015-07-01 18:02:14 · 2660 阅读 · 0 评论 -
论文提要“Selective Search for Object Recognition”
这篇2012年的IJCV使用分割和穷举搜索的方法产生目标proposal,最近出现的R-CNN就是在这些proposal上学习特征进行目标识别的,目标proposal是相对于滑动窗产生的候选框来说的,proposal的数量要少很多。区域可以归并到一起的原因有很多,如下图所示,(b)颜色,(c)纹理,(d)包含问题,车辆包含车轮等。 论文提出了一种数据驱动的SS,结合穷举搜索和多元化采样方法捕获所有原创 2015-07-02 15:53:09 · 1326 阅读 · 0 评论 -
论文提要“You Only Look Once: Unified, Real-Time Object Detection”
项目主页:http://pjreddie.com/darknet/yolo/这篇文章着重在检测的速度提升,区别于之前的方法是用分类器来做检测,文章对bbox和对应的类概率进行回归,检测速度可以达到45f/s,mAP与原始的R-CNN差不多。出现原因: CNN在分类上已经可以达到实时,而在检测上R-CNN需要几秒的时间处理一张图片,主要是由于proposal的提取时间需要约1~2s的时间,然后还有很原创 2015-07-08 14:51:39 · 16302 阅读 · 25 评论 -
论文提要“Scalable Object Detection using Deep Neural Networks”
论文提要“Scalable Object Detection using Deep Neural Networks”与之前主流检测方法DPM不同,论文提出了一种名为“DeepMultiBox”的方法产生比较少量的目标候选框,这些候选框是使用DNN(Deep Neural Network)生成的与目标类别无关的区域。 1.主要贡献: 1)将目标检测定义为几个bounding bo原创 2015-06-11 17:03:49 · 3868 阅读 · 0 评论 -
论文提要“Taking a Deeper Look at Pedestrians”
比较:使用CNN做行人检测,目前最好的基于convnet的行人检测方法是SDN,之前的方法没有直接使用LeNet的,本文使用该网络。目前最好的行人检测方法是基于决策树的,包括SquaresChnFtrs,InformedHaar,SpatialPooling,LDCF和Regionlets,这些方法都是ICF结构的变体。 之前的基于cnn的方法使用的是人工设计的特征,最早的方法ConvNet的输入原创 2015-08-28 15:53:20 · 2993 阅读 · 0 评论 -
DeepID-Net:multi-stage and deformable deep CNNs for object detection
论文贡献: 1.融合多种技术进行目标检测:feature representation learning, part deformation learning, sub-box feature extraction, context modeling, model averaging, and bounding box location refinement 2.预训练方法:使用1000类ob原创 2015-11-02 17:01:04 · 1911 阅读 · 0 评论 -
论文提要“Filtered Channel Features for Pedestrian Detection”
增加中间层,对底层特征使用滤波器组进行滤波,并使用boosted 决策树进行分类,可以提升行人检测率。最近比较好的人检测方法均在底层特征和分类器之间增加量中间层,如最大池化,滤波等。本文使用了滤波器组对图像进行卷积。文章提出的滤波器组框架如下图所示。仅使用HOG+LUV在Caltech和KITTI数据库上可获得最好的效果。 相关研究 最近的行人检测综述表明不同的分类器,如SVM和决策树,对检测结原创 2015-09-06 17:00:34 · 4125 阅读 · 0 评论 -
DenseBox: Unifying Landmark Localization with End to End Object Detection
百度深度学习研究院 的目标检测工作 类似 Faster R-CNN输入多尺度图像,经过CNN处理,输出目标框Model Design 模型是从 19层的VGG模型演变来的。Multi-Level Feature Fusion: 将不同卷积层的特征联系起来可以提高检测效果Multi-Task Training: 两个任务:1)目标有无,2)目标的位置这里使用了 landmark 来改善定位模型原创 2015-12-04 11:34:35 · 9241 阅读 · 0 评论 -
DeepBox: Learning Objectness with Convolutional Networks
ICCV 2015 code https://github.com/weichengkuo/DeepBoxproposal re-ranker ,本文是对候选区域重新排序。从 Edge box的2000个结果中选出500个好的候选区域,怎么选了? 使用一个小的 CNN网络3.1. Network Architecture our network architecture is: conv原创 2015-12-03 10:54:57 · 1977 阅读 · 2 评论 -
Oriented Object Proposals
ICCV 2015 关于候选区域提取的文献。 Oriented Object Proposals 简写 OOP算法 本文提出的提取算法的三个优势: 1)可以提取不同旋转角度的物体 2)本文的OOP算法得到更好的框,框的更准更小些 3)我们的候选区域个数更小些2 Related Work 以前候选区域提取算法主要可以分为两类: 1)Window scoring methods 滑原创 2015-12-01 09:42:49 · 2279 阅读 · 2 评论 -
车辆检测”Learning to Detect Vehicles by Clustering Appearance Patterns“
在KITTI上做车辆检测,排名比较靠后的一种方法,有源码,代码可直接训练和检测,用ACF和boost做的。项目主页:http://cvrr.ucsd.edu/eshed/主要思想是在训练之前对训练数据进行聚类,就像DPM有多个component,作者分析了用于聚类的一些特征,如视觉特征RGB,LUV,Gradient,CNN等,几何特征3D方向,长宽比,截断等级,遮挡等级等。训练过程如下图所示:原创 2016-01-15 16:15:04 · 4497 阅读 · 1 评论 -
车辆检测“Integrating Context and Occlusion for Car Detection by Hierarchical And-Or Model”
sczhu课题组的文章: http://www.stat.ucla.edu/~boli/projects/context_occlusion/context_occlusion.html主要思路 And-Or模型结合上下文及遮挡信息用于车辆检测,And-Or模型在三个层次上描述car-to-car上下文及遮挡信息,(1)N个car之间的空间布局,(2)单个car不同的遮挡结构,(3)part。翻译 2015-11-18 16:40:12 · 2463 阅读 · 2 评论 -
3D Object Proposals for Accurate Object Class Detection
ICCV 2015 3D物体候选区域提取,自动驾驶中的物体检测的前一个步骤Our code and data are online: http://www.cs.toronto.edu/ ˜ 3dop 暂时还不能访问3 3D Object Proposals 我们的输入是 a stereo image pair,使用 Yamaguchi et al. [31] 计算深度信息。 W原创 2015-11-23 16:47:05 · 3294 阅读 · 0 评论