前面已经谈到我们收集的数据:
一共收集了有P个人脸图片(正样本),N个非人脸图片(负样本),记总数为M=P+N。
已经知道如何提取特征——Haar特征:
假设我们使用的图像大小为W*H,全部的haar特征总数为F个(F很大,数以万计)。
现在对每个样本图片提取全部特征,第i个样本图片得到F个特征值组成特征向量Xi[F],那么所有样本的Xi按行存入矩阵X[M][F],矩阵X为一个M行F列二维矩阵,X[i][j]为第i个样本的第j个haar特征的值。注意后面我们提到样本,指的就是图片提取的特征向量Xi,不是指原始图片数据。
为了标识每个样本属于人脸还是非人脸,定义Y[M]为类别标记,正样本Y[i]=+1,负样本Y[i]=-1。
此外用W[M]记录样本权值,表示每个样本的重要性。一开始我们让正样本的权值和为0.5,负样本和也为0.5,每个正样本的权值为0.5/P,负样本0.5/N.所有样本的权值之和为1。权值的用途用到时再说,暂时不管它。
更具体一些,假设我们有9个样本数据,前5个是人脸,后4个是其他图片,对这9个样本提取第f个haar特征值,记录到下表中,其中Idx为样本的序号,Y为样本的类别+1表示正样本,-1为负样本,val为haar特征数值。