基于卷积神经网络的目标检测模型的研究_黄咨_2014_上海交大

一、传统检测模型和卷积神经网络对比
传统检测模型:采用人工特征提取方法获取目标的特征描述。然后输入到一个分类器中学习分类规则。

人工特征提取方法的缺点:
(1)对设计者提出比较高的学术要求,
(2)提取方法高度依赖于具体任务,要求设计者有丰富的实验经验,
(3)对应用中提出严格的假设前提,如小尺度,小角度的变换等,现实应用中很难得到满足
(4)传统检测模型分离了特征提取和分类训练,如果在特征描述中人工提取的特征对目标不够好,那些丢失的有用信息再也无法从分类训练中恢复出来。

卷积神经网络:是一种多层人工神经网络和卷积运算想结合的新型网络,通过卷积运算让计算机自动从图像中提取目标特征,对一定程度的扭曲形变有良好的鲁棒性。它采用了稀疏连接和权值共享,极大减少了神经网络模型的参数个数。
缺点:
(1)它需要对整个目标进行处理,对于一些复杂目标,模型需要大量中间节点,计算量大。
首先,常见的CNN模型只能针对整个目标区域进行处理,其通常应用于数字、字母等结构较简单的对象的目标检测中。对于一些结构复杂的检测目标,如行人、大型动物等等,模型通常需要非常多的中间隐藏节点,从而使得整个学习过程的运算量十分巨大,训练周期十分漫长,最后得到的结果也往往不那么令人如意。
(2)卷积神经网络只能进行监督学习,所有的训练样本都需要事先正确标注。虽然在大部分情况下标注正样本的标签相对简单,但标注负样本是一个非常主观的任务,负样本的类型很难事先确定。一个妥协的方法是将负样本简单归为一类,这使得海量的负样本包含的可能有用的信息无法应用到目标检测的改善中,造成了训练资源相当程度的浪费。
(3)随着网络深度的增加,模型参数越来越难在各层之间有效的传递,这样限制了参数的自适应学习。

本文亮点:
(1)部件检测。模型采用了部件检测模块,将复杂目标切分为多个部件分别检测,降低了计算量
(2)隐式训练。提出了一种隐式训练方法,能够训练模型从未标注的样本中确定隐藏变量的标签,进而学习目标的分类规则。
(3)两段式学习方案。提出两段式学习方案,借鉴“预训练”的思想逐层叠加网络的规模,避免了参数学习受限。
(4)使用静态行人检测库(INRIA)和数字角点库(A-MNIST)进行试验


二、传统目标检测模型
1、类哈尔特征 Haar-like
类哈尔特征是基于图像灰度值的一种特征提取方法,其核心思想是根据图像中不同小块间的灰度之和的变换来描述目标特性。Haar造成四类特征模板,分别是边缘特征、线性特征、中心特征和对角特征,每个特征模板都由一对比例黑白像素构成。
缺点:由于特征模板众多,类哈尔特征的计算量十分巨大,即使一个24x24的检测窗口,其检测到的特征量也高达数十万之多,给算法的运算带来了不少困扰。因此,很多检测方法采用积分图的方法来加速计算速度,并结合了AdaBoost分类器来训练得到有效的目标特征。

2、尺度不变特征转换SIFT
SIFT特征基于高斯微分函数来提取图像中对尺度、旋转等不变的特征点,解决了局部图像特征描述的很多问题,被广泛用于人脸检测、车辆检测等等,但尺度不变特征转换要求检测目标要有足够的纹理信息,否则容易发生错配的情况。另外,由于需要的计算量比较巨大,SIFT很少用于复杂目标的检测中。
SIFT是一种提取局部特征的方法,它对某种程度内的尺度、旋转、视角和光照等变化的图像都有相当的抗变性,提取的特征很容易区分,解决了当时局部图像特征描述遇到的很多问题,同时它容易与其它形式的建模方法联合,因此得到了广泛的应用。S IFT的主要步骤分别为:
1)尺度空间极值检测
2)精确极值点定位
3)方向匹配
4)邻域图像描述子生成

3、方向梯度直方图
HoG特征基于图像的边缘(梯度)特征来提取目标形状,并采用了分块处理方法,很好地处理了图像的局部信息,但其很难处理局部遮挡的目标。HoG同样基于图像局部区域的梯度信息来生成特征向量。它没有尺度和旋转不变的特性,也不需要高斯函数进行预处理并寻找极值点,因此计算量较小。HOG还考虑了特征的混叠效应。
方向梯度直方图HOG特征提取主要步骤:
1)全局图像归一化。图像归一化是为了降低光照因素的影响,避免由于光照亮度差异过大造成目标的检测或者特征的误提取。采用伽马压缩,伽马归一化。
2)一阶梯度计算。通过计算图像的一阶梯度,捕获目标的轮廓、纹理等信息,并进一步降低光照因素影响。
3)梯度信息编码。需要找到一个对图像内容敏感而对姿势或外表微小变化不敏感的编码方式。累加细胞单元内的梯度信息。
4)块单元归一化。将细胞组合成块,以块为单元进行一些列归一化操作,使得这些特征对光照、阴影、边缘对比有更好的鲁棒性。归一化重叠块的细胞单元。
5)特征向量生成。将所有重叠块的HOG描述转换成联合特征向量,以便于分类使用。收集检测窗口内所有块的方向梯度直方图。


三、卷积神经网络
CNN具有良好的通用性,可以识别多种不同的模型或者目标,并对一定程度的扭曲形变具有良好的鲁棒性。
卷积层:主要采用可训练的卷积核来对输入数据进行卷积操作,并将结果以某种组合形式输出,其本质是对输入数据的特征提取。
输出层:采用非线性函数来转换,以此使模型获得非线性特性并把输出限制在给定的范围内。成为激活函数。
卷积神经网络的三大优点:稀疏连接、权值共享、采样。
权值共享:实质就是让同一个卷积核去卷积整张图像,生成一整张特征地图,每张特征地图只能提取同一种特征信息。
采样:大大减少了隐层所包含的单元个数。

四、基于CNN的隐式训练目标检测
在CNN的训练过程中通常采用反向传播算法(BP算法),李勇模型输出和目标之间的误差来调整网络结构的参数。随着网络深度逐步增加,在学习过程中高层的误差将越来越难以有效地传递到底层,使得网络参数的训练成为难题。
1、部件检测
因此,本文提出的模型结合了多个部件检测子,在检测前先将目标分割成多个部件,然后分别输入到
模型进行检测,得到各部件的分类的评分,最后将这些评分连接起来,形成对目标整体的评分,依据评分值来判断目标所属的类别。
2、隐式训练
针对负样本无法标注
3、两段式学习
随着网络深度的不断增加,在反向传播过程中网络高层的误差将越来越难以有效地传递到底层,这在很大程度上限制了参数自适应学习能力。
为了克服这个问题,本文提出的模型训练借鉴了“预训练”和自动编码器(AutoEncoder)逐层训练的想法,采用两段式学习方案来逐步叠加网络模型的规模。
第一阶段搭建三层部件模型,并通过隐式训练确定所有样本的部件标签和三层部件模型的权值参数和偏置参数;第二阶段通过添加一层最终分类层生成四层全局模型,并将第一阶段得到的网络参数作为四层全局模型参数的初始化值,最后经过训练得到模型最终的参数和样本最终的分类。
4、三层部件
待检测图像先分割为各个部件,然后输入到三层网络中,经过一系列卷积和采样作用,最后全连接到输出层。
激活函数:它为模型提供了非线性特性,使得卷积神经网络对任意连续函数拥有良好的通用逼近性,其次,它可以把网络各层的输出限制在更合适模型处理的值域范围内。
预训练:给模型初始化为一个更优的初值,使得模型对检测任务有更好的表现效果。

五、基于CNN的隐式训练学习算法
反向传播算法:是一种根据模型实际的输出和人们期望的输出之间的差异来调整网络参数的监督学习算法。 反向传播算法是一种基于梯度的监督学习算法,它通过输入带标签的训练样本得到模型的输出,然后与目标输出(也称为理想输出)比较得到误差,通过把误差反向传播到网络各层,并对各层的权值参数和偏置参数进行反复地训练调整,使得模型输出逐渐靠近目标输出,直到两者的误差小于指定的值时调整结束,然后保存网络的权值参数和偏置参数。
参数更新:
学习速率:

六、实验结果与分析
INRIA人类数据库和A-MNIST数字角点库

七、展望
caffe









评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值