基于SVM的人脸识别

最新推荐文章于 2025-04-08 20:09:22 发布

deepindeed

最新推荐文章于 2025-04-08 20:09:22 发布

阅读量1.9w

点赞数 15

分类专栏：【计算机视觉】文章标签：脸部识别 SVM

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/cwlseu/article/details/52356665

版权

本文介绍了基于SVM的人脸识别方法，利用LFW数据库进行训练和测试。通过PCA进行特征降维，发现特征脸数目为80时效果最佳。采用非线性核函数的SVM分类器，经过参数优化，平均正确率达到了90%。未来研究将探讨数据稀疏性和其他特征提取方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据说明

LFW全称为Labeled Faces in the Wild, 是一个应用于人脸识别问题的数据库，更多内容查看官方网站：http://vis-www.cs.umass.edu/lfw

LFW语料图片，每张图片都有人名Label标记。每个人可能有多张不同情况下情景下的图片。如George W Bush 有530张图片，而有一些人名对应的图片可能只有一张或者几张。我们将选取出现最多的人名作为人脸识别的类别，如本实验中选取出现频数超过70的人名为类别，那么共计1288张图片。其中包括Ariel Sharon, Colin Powell, Donald Rumsfeld, George W Bush, Gerhard Schroeder, Hugo Chavez , Tony Blair等7个人名。

这里写图片描述

问题描述

通过对7个人名的提取特征和标记，进行新输入的照片进行标记人名。这是一个多分类的问题，在本数据集合中类别数目为7. 这个问题的解决，不仅可以应用于像公司考勤一样少量人员的识别，也可以应用到新数据的标注中。语料库进一步标注，将进一步扩大训练数据集合数据量，从而进一步提高人脸识别的精确度。因此，对于图片的人名正确标注问题，或者这个多分类问题的研究和使用是有应用价值的。

##数据处理
训练与测试数据中样本数量为1288，对样本图片进行下采样后特征数为1850，所有人脸的Label数目为7。
首先将数据集划分为训练集合和测试集合，测试集合占25%(一般应该10%或者20%)，训练数据进行训练过程中，将分为训练集合和验证集合。通过验证集合选择最优模型，使用测试结合测试模型性能。
其次，通过对训练集合PCA分解，提取特征脸，提高训练速度，防止过度拟合。图片 1是关于不同的特征所占的总方差的比率关系，从中可以看出，关键特征主要集中在前50个。图片 2 是关于图片 1的累计分布图。从曲线中可以看出，当特征脸数目为50时，约占85%的数据信息，特征脸数据为100时，约占总信息量的90%左右。经过测试，最佳分类结果时，特征脸数目为80 .此时约占88%的总体方差。

print(__doc__)

import numpy as np
import matplotlib.pyplot as plt

from sklearn import linear_model, decomposition, datasets
from sklearn.pipeline import Pipeline
from sklearn.grid_search import GridSearchCV

logistic = linear_model.LogisticRegression()

pca = decomposition.PCA()
pipe = Pipeline(steps=[('pca', pca), ('logistic', logistic)])

digits = datasets.load_digits()
X_digits = digits.data
y_digits = digits.target

###############################################################################
# Plot the PCA spectrum
pca.fit(X_digits)

plt.figure(1, figsize=(4, 3))
plt.clf()
plt.axes([.2, .2, .7, .7])
plt.plot(pca.explained_variance_, linewidth=2)
plt.axis('tight')
plt.xlabel('n_components')
plt.ylabel('explained_variance_')

###############################################################################
# Prediction

n_components = [10, 20, 25, 30, 35, 40, 50, 64]#[i for i in range(1,65)]#
Cs = np.logspace(-4, 4, 3)

estimator = GridSearchCV(pipe,
                         dict(pca__n_components=n_components,
                              logistic__C=Cs

最低0.47元/天解锁文章