haar训练

一、简介
目标检测方法最初由Paul Viola [Viola01]提出,并由Rainer Lienhart [Lienhart02]对这一方法进行了改善。该方法的基本步骤为: 首先,利用样本(大约几百幅样本图片)的 harr 特征进行分类器训练,得到一个级联的boosted分类器。
分类器中的"级联"是指最终的分类器是由几个简单分类器级联组成。在图像检测中,被检窗口依次通过每一级分类器,这样在前面几层的检测中大部分的候选区域就被排除了,全部通过每一级分类器检测的区域即为目标区域。
分类器训练完以后,就可以应用于输入图像中的感兴趣区域(与训练样本相同的尺寸)的检测。检测到目标区域(汽车或人脸)分类器输出为1,否则输出为0。为了 检测整副图像,可以在图像中移动搜索窗口,检测每一个位置来确定可能的目标。为了搜索不同大小的目标物体,分类器被设计为可以进行尺寸改变,这样比改变待检图像的尺寸大小更为有效。所以,为了在图像中检测未知大小的目标物体,扫描 程序通常需要用不同比例大小的搜索窗口对图片进行几次扫描。
目前支持这种分类器的boosting技术有四种:Discrete Adaboost, Real Adaboost, Gentle Adaboost and Logitboost
"boosted"
即指级联分类器的每一层都可以从中选取一个boosting算法(权重投票),并利用基础分类器的自我训练得到。
根据上面的分析,目标检测分为三个步骤:
1
 样本的创建
2
 训练分类器
3
 利用训练好的分类器进行目标检测。
二、样本创建
训练样本分为正例样本和反例样本,其中正例样本是指待检目标样本(例如人脸或汽车等),反例样本指其它任意图片,所有的样本图片都被归一化为同样的尺寸大小(例如,20x20)
负样本
负样本可以来自于任意的图片,但这些图片不能包含目标特征。负样本由背景描述文件来描述。背景描述文件是一个文本文件,每一行包含了一个负样本图片的文件名(基于描述文件的相对路径)。该文件必须手工创建。
e.g:
负样本描述文件的一个例子:
假定目录结构如下:
/img
img1.jpg
img2.jpg
bg.txt
则背景描述文件bg.txt的内容为:
img/img1.jpg
img/img2.jpg
正样本
正样本由程序craatesample程序来创建。该程序的源代码由OpenCV给出,并且在bin目录下包含了这个可执行的程序。
正样本可以由单个的目标图片或者一系列的事先标记好的图片来创建。
Createsamples
程序的命令行参数:
命令行参数:
vec <vec_file_name>
训练好的正样本的输出文件名。
img<image_file_name>
源目标图片(例如:一个公司图标)
bg<background_file_name>
背景描述文件。
num<number_of_samples>
要产生的正样本的数量,和正样本图片数目相同。
bgcolor<background_color>
背景色(假定当前图片为灰度图)。背景色制定了透明色。对于压缩图片,颜色方差量由bgthresh参数来指定。则在bgcolorbgthreshbgcolorbgthresh中间的像素被认为是透明的。
bgthresh<background_color_threshold>
inv
如果指定,颜色会反色
randinv
如果指定,颜色会任意反色
maxidev<max_intensity_deviation>
背景色最大的偏离度。
maxangel<max_x_rotation_angle>
maxangle<max_y_rotation_angle>
maxzangle<max_x_rotation_angle>
最大旋转角度,以弧度为单位。
show
如果指定,每个样本会被显示出来,按下"esc"会关闭这一开关,即不显示样本图片,而创建过程继续。这是个有用的debug选项。
w<sample_width>
输出样本的宽度(以像素为单位)
hsample_height
输出样本的高度,以像素为单位。
注:正样本也可以从一个预先标记好的图像集合中获取。这个集合由一个文本文件来描述,类似于背景描述文件。每一个文本行对应一个图片。每行的第一个元素是图片文件名,第二个元素是对象实体的个数。后面紧跟着的是与之匹配的矩形框(x, y, 宽度,高度)。
下面是一个创建样本的例子:
假定我们要进行人脸的检测,有5个正样本图片文件img1.bmp,img5.bmp;有2个背景图片文件:bg1.bmp,bg2.bmp,文件目录结构如下:
positive
  img1.bmp
 
……
  Img5.bmp
negative
  bg1.bmp
  bg2.bmp
info.dat
bg.txt
正样本描述文件info.dat的内容如下:
Positive/imag1.bmp 1 0 0 24 28
……
Positive/imag5.bmp 1 0 0 24 28
图片img1.bmp包含了单个目标对象实体,矩形为(0,0,24,28)。
注意:要从图片集中创建正样本,要用-info参数而不是用-img参数。
info <collect_file_name>
标记特征的图片集合的描述文件。
背景(负样本)描述文件的内容如下:
nagative/bg1.bmp
nagative/bg2.bmp
我们用一个批处理文件run.bat来进行正样本的创建:该文件的内容如下:
cd  e:\face\bin
CreateSamples   -vec e:\face\a.vec
 -info e:\face\info.dat
-bg e:\face\bg.txt
-num 5
-show
-w 24
 -h 28
其中e:\face\bin目录包含了createsamples可执行程序,生成的正样本文件a.vece:\face目录下。
三、训练分类器
样本创建之后,接下来要训练分类器,这个过程是由haartraining程序来实现的。该程序源码由OpenCV自带,且可执行程序在OpenCV安装目录的bin目录下。
Haartraining
的命令行参数如下:
data<dir_name>
存放训练好的分类器的路径名。
vec<vec_file_name>
正样本文件名(由trainingssamples程序或者由其他的方法创建的)
bg<background_file_name>
背景描述文件。
npos<number_of_positive_samples>
nneg<number_of_negative_samples>
用来训练每一个分类器阶段的正/负样本。合理的值是:nPos =7000;nNeg = 3000
nstages<number_of_stages>
训练的阶段数。
nsplits<number_of_splits>
决定用于阶段分类器的弱分类器。如果1,则一个简单的stumpclassifier被使用。如果是2或者更多,则带有number_of_splits个内部节点的CART分类器被使用。
mem<memory_in_MB>
预先计算的以MB为单位的可用内存。内存越大则训练的速度越快。
symdefault
nonsym
指定训练的目标对象是否垂直对称。垂直对称提高目标的训练速度。例如,正面部是垂直对称的。
minhitratemin_hit_rate
每个阶段分类器需要的最小的命中率。总的命中率为min_hit_ratenumber_of_stages次方。
maxfalsealarm<max_false_alarm_rate>
没有阶段分类器的最大错误报警率。总的错误警告率为max_false_alarm_ratenumber_of_stages次方。
weighttrimming<weight_trimming>
指定是否使用权修正和使用多大的权修正。一个基本的选择是0.9
eqw
mode<basic(default)|core|all>
选择用来训练的haar特征集的种类。basic仅仅使用垂直特征。all使用垂直和45度角旋转特征。
wsample_width
hsample_height
训练样本的尺寸,(以像素为单位)。必须和训练样本创建的尺寸相同。
一个训练分类器的例子:
同上例,分类器训练的过程用一个批处理文件run2.bat来完成:
cd e:\face\bin
haartraining -data e:\face\data
-vec e:\face\a.vec
-bg e:\face\bg.txt
-npos 5
-nneg 2
 -w 24
 -h 28
训练结束后,会在目录data下生成一些子目录,即为训练好的分类器。
注:OpenCv 的某些版本可以将这些目录中的分类器直接转换成xml文件。但在实际的操作中,haartraining程序却好像永远不会停止,而且没有生成xml文 件,后来在OpenCVyahoo论坛上找到一个haarconv的程序,才将分类器转换为xml文件,其中的原因尚待研究。

四、目标检测

OpenCVcvHaarDetectObjects()函数(在haarFaceDetect演示程序中示例)被用来做侦测。关于该检测的详细分析,将在下面的笔记中详细描述。

本系列文章旨在学习如何在opencv中基于haar-like特征训练自己的分类器,并且用该分类器用于模式识别。该过程大致可以分为一下几个大步骤:

1.准备训练样本图片,包括正例及反例样本

2.生成样本描述文件

3.训练样本

4.目标识别

=================

本文主要对步骤1、步骤2进行说明。

1.准备训练样本图片,包括正例及反例样本

1)正样本的采集

  所谓正样本,是指只包含待识别的物体的图片,一般是一些局部的图片,且最好能转化为灰度图。比如,若你想识别人脸,则正样本应尽可能只包含人脸,可以留一点周边的背景但不要过多。在正样本的采集上,我们有两种图形标定工具可以使用:(1)opencv的imageClipper (2)objectMarker。这两个工具都支持傻瓜式地对图片中的物体进行矩形标定,可以自动生成样本说明文件,自动逐帧读取文件夹内的下一帧。我用的是objectMarker。如果你找不到这个软件,可以留下邮箱,我发给你。
  在标定的时候尽量保持长宽比例一致,也就是尽量用接近正方形的矩形去标定待识别的物体,至于正方形的大小影响并不大。尽管OpenCV推荐训练样本的最佳尺寸是20x20,但是在下一步生成样本描述文件时可以轻松地将其它尺寸缩放到20x20。标定完成后生成的样本说明文件info.txt内容举例如下:

 

1
2
3
4
5
rawdata/   (1).bmp 1 118 26 81 72
rawdata/   (10).bmp 2 125 72 48 46 0 70 35 43
rawdata/   (11).bmp 1 105 87 43 42
rawdata/   (12).bmp 2 1 70 34 38 105 87 41 44
...

 

其中rawdata文件夹存放了所有待标定的大图,objectMarker.exe与rawdata文件夹同级。这个描述文件的格式已经很接近opencv所要求的了。

2)负样本的采集:

  所谓负样本,是指不包含待识别物体的任何图片,因此你可以将天空、海滩、大山等所有东西都拿来当负样本。但是,很多时候你这样做是事倍功半的。大多数模式识别问题都是用在视频监控领域,摄像机的角度跟高度都相对固定。如果你知道你的项目中摄像机一般都在拍什么,那负样本可以非常有针对性地选取,而且可以事半功倍。举个例子,你现在想做火车站广场的异常行为检测,在这个课题中行人检测是必须要做的。而视频帧的背景基本都是广场的地板、建筑物等。那你可以在人空旷的时候选择取一张图,不同光照不同时段下各取一张图,然后在这些图上随机取图像块,每个块20x20,每个块就是一个负样本。这几张图就能缠上数以千计数以万计的负样本!而且针对性强。因为海洋、大山等东西对你的识别一点帮助也没有,还会增加训练的时间,吃力不讨好的事还是少做为好。我写了一段小程序,功能是根据背景图片自动随机生成指定数量指定尺寸的负样本:

负样本生成代码

这里的负样本尺寸我设定为40x40,是因为在我的应用环境下待识别的物体差不多是这个尺寸的。具体可以分析一下你的info.txt文件。生成文件后,开cmd.exe cd到该目录,然后运行“dir /b > neg_sample.dat”,打开.dat,用editplus替换bmp为bmp 1 0 0 40 40。这样负样本说明文件就产生了。

  对于负样本,我还有一点要说明:负样本图像的大小只要不小于正样本就可以。opencv在使用你提供的一张负样本图片时会自动从其中抠出一块与正样本同样大小的图像作为负样本,具体的函数可见opencv系统函数cvGetNextFromBackgroundData()。

 

2.生成样本描述文件

  样本描述文件也即.vec文件,里面存放二进制数据,是为opencv训练做准备的。只有正样本需要生成.vec文件,负样本不用,负样本用.dat文件就够。在生成描述文件过程中,我们需要用到opencv自带的opencv_createsamples.exe可执行文件。这个文件一般存放在opencv安装目录的/bin文件夹下(请善用ctrl+F搜索)。如果没有,可以自己编译一遍也很快。这里提供懒人版:http://en.pudn.com/downloads204/sourcecode/graph/texture_mapping/detail958471_en.html 这是别人编译出来的opencv工程,在bin底下可以找到该exe文件。要注意,该exe依赖于cv200.dll、cxcore200.dll、highgui200.dll这三个动态库,要保持这四个文件在同个目录下。

 

现在我们开始生成描述文件。新建文件夹pos、neg分别存放正样本及负样本图片,此处是指没标定的大图。

1)修改样本说明文件的格式:

在第1步中我们用objectMarker完成标定后会自动生成info.txt,现在我们需要对其格式做一定的微调,通过editplus或者ultraedit将路径信息rawdata都替换掉,并命名为sample_pos.dat,也可自定义名字。

1
2
3
4
5
6
(1).bmp 1 118 26 81 72
(10).bmp 2 125 72 48 46 0 70 35 43
(11).bmp 1 105 87 43 42
(12).bmp 2 1 70 34 38 105 87 41 44
(13).bmp 1 102 93 43 41
(14).bmp 1 104 86 45 47

2)使用opencv_createsamples.exe创建样本描述文件:

  打开cmd.exe,cd到opencv_createsamples.exe所在的目录,执行命令:

1
opencv_createsamples.exe <span style= "color: #ff0000;" >-info ./pos/sample_pos.dat</span> -vec ./pos/sample_pos.vec <strong>-num 17</strong> -w 20 -h 20 -show YES

 参数说明:-info,指样本说明文件

      -vec,样本描述文件的名字及路径

      -num,总共几个样本,要注意,这里的样本数是指标定后的20x20的样本数,而不是大图的数目,其实就是样本说明文件第2列的所有数字累加         和。

      -w -h 指明想让样本缩放到什么尺寸。这里的奥妙在于你不必另外去处理第1步中被矩形框出的图片的尺寸,因为这个参数帮你统一缩放!

      -show 是否显示每个样本。样本少可以设为YES,要是样本多的话最好设为NO,或者不要显式地设置,因为关窗口会关到你哭

 

done表示创建成功,若创建不成功会报错,大部分会提示你sample.dat pars error,一般是说明文件格式有错,或者num设置过大

1
2
Create training samples from images collection...
Done. Created 17 samples

 

总结

总结并延伸以上内容:

1.样本图片最好使用灰度图,且最好能根据实际情况做一定的预处理

2.样本选择的原则是:数量越多越好,尽量高于1000;样本间差异性越大越好

3.正负样本比例为1:3最佳,尺寸为20x20最佳

在上一篇文章中,我介绍了《训练自己的haar-like特征分类器并识别物体》的前两个步骤:

1.准备训练样本图片,包括正例及反例样本

2.生成样本描述文件

3.训练样本

4.目标识别

=================

今天我们将着重学习第3步:基于haar特征的adaboost级联分类器的训练。若将本步骤看做一个系统,则输入为正样本的描述文件(.vec)以及负样本的说明文件(.dat);输出为分类器配置参数文件(.xml)。

老规矩,先介绍一下这篇文章需要的工具,分别是(1)训练用的opencv_haartraining.exe,该程序封装了haar特征提取以及adaboost分类器训练过程;(2)haarconv.exe(老版本命名法)或者convert_cascade.exe(新版本命名法),该程序用于合并各级分类器成为最终的xml文件。一般这两个程序都能在opencv的工程文件里找到,请善用ctrl+F。若没有,则请到http://en.pudn.com/downloads204/sourcecode/graph/texture_mapping/detail958471_en.html 中下载opencv_haartraining.exe以及相应dll库,到http://mail.pudn.com/downloads554/sourcecode/graph/detail2285048.html 中下载haarconv.exe以及相应dll库。必备的dll库如下图所示,为了方便你可以将exe以及dll都拷贝出来。目录结构见结尾附图

工具都准备好了,下面进入正题:

1.训练分类器

打开cmd,cd到当前目录,运行命令:

1
opencv_haartraining.exe -data ./cascade -vec ./pos/sample_pos.vec <span style= "color: #ff0000;" >-bg ./neg/sample_neg.dat</span> -npos 20 -nneg 60 -mem 200 -mode ALL -w 20 -h 20

参数说明,这个要好好看,出错了好调试

复制代码
-data 指定生成的文件目录, 
-vec vec文件名, 
-bg 负样本描述文件名称,也就是负样本的说明文件(.dat) 
-nstage 20 指定训练层数,推荐15~20,层数越高,耗时越长。
-nsplits 分裂子节点数目,选取默认值 2 
-minhitrate 最小命中率,即训练目标准确度。
-maxfalsealarm最大虚警(误检率),每一层训练到这个值小于0.5时训练结束,进入下一层训练,
-npos 在每个阶段用来训练的正样本数目,
-nneg每个阶段用来训练的负样本数目 这个值可以设置大于真正的负样本图像数目,程序可以自动从负样本图像中切割出和正样本大小一致的,这个参数一半设置为正样本数目的1~3倍 -w -h样本尺寸,与前面对应 -mem 程序可使用的内存,这个设置为256即可,实际运行时根本就不怎么耗内存,以MB为单位 -mode ALL指定haar特征的种类,BASIC仅仅使用垂直特征,ALL表示使用垂直以及45度旋转特征

-sym或者-nonsym,后面不用跟其他参数,用于指定目标对象是否垂直对称,若你的对象是垂直对称的,比如脸,则垂直对称有利于提高训练速度
复制代码

其中要注意,负样本使用的是.dat文件,而不是.vec文件。训练结束后会在cascade目录下生成0-N的子目录。训练过程如下图,我的正样本20,负样本60,小试牛刀,毕竟数据量有限。

 

想让自己更强大,就应该知道这张图里面一些参数的意思。

1
2
3
4
5
6
7
BACKGROUNG PROCESSING TIME 是负样本切割时间,一般会占用很长的时间
N 为训练层数
%SMP 样本占总样本个数
ST.THR 阈值,
HR 击中率,
FA 虚警,<span style= "background-color: #ff0000; color: #000000;" ><strong>只有当每一层训练的FA低于你的命令中声明的maxfalsealarm数值才会进入下一层训练</strong></span>
EXP.ERR 经验错误率

 

2.合并子分类器生成xml文件

输入命令:

1
haarconv.exe ./cascade haar_adaboost.xml 25 25

若你使用的是convert_cascade.exe则是另外一种格式:

1
convert_cascade.exe --size= "20x20" ..\cascade haar_adaboost.xml

想知道用法可以输入xxx.exe  usage,用法以及参数说明一目了然

 

3.总结以及注意事项

看起来很简单是不是,你错了!真正做起来会有各种各样的错误发生让你措手不及。以下是我总结的问题及分析:

1)训练时间非常久,少则秒钟,多则几天甚至一礼拜。具体的时间跟你样本的选取、样本数量、机器的性能有着直接联系。举个例子,有人正样本7097负样本2830,在8核3.2Ghz的机器上,开启了多核并行加速(MP)的情况下训练了一周时间,跑到19层。链接http://blog.csdn.net/liulina603/article/details/8197889 。这个真心有点久了,有点夸张。举这个例子是想跟你说明,这是一件耗时间的事情,所以请你耐心等待。

2)卡死在某一层,好像进入死循环。这种情况一般跟样本的选择有关,尤其是负样本。当剩下所有的negtive样本在临时的cascade Classifier中evaluate的结果都是0(也就是拒绝了),随机取样本的数目到几百万都是找不到误检测的neg样本了,因而没法跳出循环!

解决方法是,增大负样本数目,增大负样本之间的变化!

3)训练带某一层出错,报错提示下图。查看cascade目录下发现确实走到第5层。这种情况跟上一种情况其实有点类似,都是opencv_haartraining.exe无法正常terminate。而我们的关注点在于,所生成的这些子分类器能用吗?要依实际情况而定。拿下图来说,在第5层的时候FA已经很低了,0.125000,说明效果已经够用。2)中也是这个道理。

 

 

在前两篇文章中,我介绍了《训练自己的haar-like特征分类器并识别物体》的前三个步骤:

1.准备训练样本图片,包括正例及反例样本

2.生成样本描述文件

3.训练样本

4.目标识别

==============

本文将着重说明最后一个阶段——目标识别,也即利用前面训练出来的分类器文件(.xml文件)对图片中的物体进行识别,并在图中框出在该物体。由于逻辑比较简单,这里直接上代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
int _tmain( int argc, _TCHAR* argv[])
{
     char *cascade_name = CASCADE_HEAD_MY; //上文最终生成的xml文件命名为"CASCADE_HEAD_MY.xml"
     cascade = (CvHaarClassifierCascade*)cvLoad( cascade_name, 0, 0, 0 ); //加载xml文件
 
     if ( !cascade )
     {
         fprintf ( stderr, "ERROR: Could not load classifier cascade\n" );
         system ( "pause" );
         return -1;
     }
     storage = cvCreateMemStorage(0);
     cvNamedWindow( "face" , 1 );
 
     const char * filename = "(12).bmp" ;
     IplImage* image = cvLoadImage( filename, 1 );
 
     if ( image )
     {
         detect_and_draw( image ); //函数见下方
         cvWaitKey(0);
         cvReleaseImage( &image );  
     }
     cvDestroyWindow( "result" );
     return 0;
}
复制代码
 1 void detect_and_draw(IplImage* img ) 
 2 { 
 3     double scale=1.2; 
 4     static CvScalar colors[] = { 
 5         {{0,0,255}},{{0,128,255}},{{0,255,255}},{{0,255,0}}, 
 6         {{255,128,0}},{{255,255,0}},{{255,0,0}},{{255,0,255}} 
 7     };//Just some pretty colors to draw with
 8 
 9     //Image Preparation 
10     // 
11     IplImage* gray = cvCreateImage(cvSize(img->width,img->height),8,1); 
12     IplImage* small_img=cvCreateImage(cvSize(cvRound(img->width/scale),cvRound(img->height/scale)),8,1); 
13     cvCvtColor(img,gray, CV_BGR2GRAY); 
14     cvResize(gray, small_img, CV_INTER_LINEAR);
15 
16     cvEqualizeHist(small_img,small_img); //直方图均衡
17 
18     //Detect objects if any 
19     // 
20     cvClearMemStorage(storage); 
21     double t = (double)cvGetTickCount(); 
22     CvSeq* objects = cvHaarDetectObjects(small_img, 
23         cascade, 
24         storage, 
25         1.1, 
26         2, 
27         0/*CV_HAAR_DO_CANNY_PRUNING*/, 
28         cvSize(30,30));
29 
30     t = (double)cvGetTickCount() - t; 
31     printf( "detection time = %gms\n", t/((double)cvGetTickFrequency()*1000.) );
32 
33     //Loop through found objects and draw boxes around them 
34     for(int i=0;i<(objects? objects->total:0);++i) 
35     { 
36         CvRect* r=(CvRect*)cvGetSeqElem(objects,i); 
37         cvRectangle(img, cvPoint(r->x*scale,r->y*scale), cvPoint((r->x+r->width)*scale,(r->y+r->height)*scale), colors[i%8]); 
38     } 
39     for( int i = 0; i < (objects? objects->total : 0); i++ ) 
40     { 
41         CvRect* r = (CvRect*)cvGetSeqElem( objects, i ); 
42         CvPoint center; 
43         int radius; 
44         center.x = cvRound((r->x + r->width*0.5)*scale); 
45         center.y = cvRound((r->y + r->height*0.5)*scale); 
46         radius = cvRound((r->width + r->height)*0.25*scale); 
47         cvCircle( img, center, radius, colors[i%8], 3, 8, 0 ); 
48     }
49 
50     cvShowImage( "result", img ); 
51     cvReleaseImage(&gray); 
52     cvReleaseImage(&small_img); 
53 }
复制代码

===================================

其实上面的代码可以运用于大部分模式识别问题,无论是自己生成的xml文件还是opencv自带的xml文件。在opencv的工程目录opencv\data文件夹下有大量的xml文件,这些都是opencv开源项目中的程序员们自己训练出来的。然而,效果一般不会合你预期,所以才有了本系列文章。天下没有免费的午餐,想要获得更高的查准率与查全率,不付出点努力是不行的!


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值