人脸识别技术是一种通过采集和识别人脸图像来鉴别身份的技术。它基于计算机视觉和模式识别技术,通过对人脸的特征进行比对和分析,识别出个体的身份和特征信息。人脸识别技术已经广泛应用于安防、金融、政务管理、边境检查、教育等领域,成为了维护公共安全、提高管理效率的关键工具。它能够通过摄像头实时监测并识别人员,迅速定位目标个体,避免犯罪行为。现在的人脸识别技术不仅能够对静态图像进行识别,还可以对视频进行跟踪,提高识别精度。然而,在使用人脸识别技术的过程中也存在隐私泄漏的风险,需要加强数据保护,保障人民的隐私权和安全。
# -*- coding: utf-8 -*-
from __future__ import unicode_literals
import os
import numpy as np
import cv2 as cv
import sklearn.preprocessing as sp
fd = cv.CascadeClassifier('../../data/haar/face.xml')
def search_faces(directory):
directory = os.path.normpath(directory)
if not os.path.isdir(directory):
raise IOError("The directory '" +
directory +
"' doesn't exist!")
faces = {}
for curdir, subdirs, files in os.walk(directory):
for jpeg in (file for file in files
if file.endswith('.jpg')):
path = os.path.join(curdir, jpeg)
label = path.split(os.path.sep)[-2]
if label not in faces:
faces[label] = []
faces[label].append(path)
return faces
train_faces = search_faces(
'../../data/faces/training')
codec = sp.LabelEncoder()
codec.fit(list(train_faces.keys()))
train_x, train_y = [], []
for label, filenames in train_faces.items():
for filename in filenames:
image = cv.imread(filename)
gray = cv.cvtColor(image, cv.COLOR_BGR2GRAY)
faces = fd.detectMultiScale(gray, 1.1, 2,
minSize=(100, 100))
for l, t, w, h in faces:
train_x.append(
gray[t:t + h, l:l + w])
train_y.append(
codec.transform([label])[0])
train_y = np.array(train_y)
# 局部二值模式直方图人脸识别分类器
model = cv.face.LBPHFaceRecognizer_create()
model.train(train_x, train_y)
test_faces = search_faces(
'../../data/faces/testing')
test_x, test_y, test_z = [], [], []
for label, filenames in test_faces.items():
for filename in filenames:
image = cv.imread(filename)
gray = cv.cvtColor(image, cv.COLOR_BGR2GRAY)
faces = fd.detectMultiScale(gray, 1.1, 2,
minSize=(100, 100))
for l, t, w, h in faces:
test_x.append(
gray[t:t + h, l:l + w])
test_y.append(
codec.transform([label])[0])
a, b = int(w / 2), int(h / 2)
cv.ellipse(image, (l + a, t + b),
(a, b), 0, 0, 360,
(255, 0, 255), 2)
test_z.append(image)
test_y = np.array(test_y)
pred_test_y = []
for face in test_x:
pred_code = model.predict(face)[0]
pred_test_y.append(pred_code)
escape = False
while not escape:
for code, pred_code, image in zip(
test_y, pred_test_y, test_z):
label, pred_label = \
codec.inverse_transform([code, pred_code])
text = '{} {} {}'.format(
label,
'==' if code == pred_code else '!=',
pred_label)
cv.putText(image, text, (10, 60),
cv.FONT_HERSHEY_SIMPLEX, 2,
(255, 255, 255), 6)
cv.imshow('Recognizing...', image)
if cv.waitKey(1000) == 27:
escape = True
break
简单人脸识别:OpenCV的LBPH(局部二值模式直方图)
# -*- coding: utf-8 -*-
from __future__ import unicode_literals
import sklearn.datasets as sd
import sklearn.model_selection as ms
import sklearn.svm as svm
import sklearn.metrics as sm
import matplotlib.pyplot as mp
faces = sd.fetch_olivetti_faces('../../data/')
x = faces.data
y = faces.target
train_x, test_x, train_y, test_y = \
ms.train_test_split(x, y, test_size=0.2,
random_state=7)
model = svm.SVC(class_weight='balanced')
model.fit(train_x, train_y)
pred_test_y = model.predict(test_x)
cm = sm.confusion_matrix(test_y, pred_test_y)
cr = sm.classification_report(test_y, pred_test_y)
print(cr)
mp.figure('Confusion Matrix', facecolor='lightgray')
mp.title('Confusion Matrix', fontsize=20)
mp.xlabel('Predicted Class', fontsize=14)
mp.ylabel('True Class', fontsize=14)
mp.tick_params(labelsize=10)
mp.imshow(cm, interpolation='nearest', cmap='gray')
mp.show()
用SVM分类器实现人脸识别
# -*- coding: utf-8 -*-
from __future__ import unicode_literals
import sklearn.datasets as sd
import sklearn.decomposition as dc
import matplotlib.pyplot as mp
faces = sd.fetch_olivetti_faces('../../data/')
x = faces.data
y = faces.target
ncps = range(10, 410, 10)
evrs = []
for ncp in ncps:
model = dc.PCA(n_components=ncp)
model.fit_transform(x)
# 还原率误差
evr = model.explained_variance_ratio_.sum()
evrs.append(evr)
mp.figure('Explained Variance Ratio',
facecolor='lightgray')
mp.title('Explained Variance Ratio', fontsize=20)
mp.xlabel('n_components', fontsize=14)
mp.ylabel('Explained Variance Ratio', fontsize=14)
mp.tick_params(labelsize=10)
mp.grid(linestyle=':')
mp.plot(ncps, evrs, c='dodgerblue',
label='Explained Variance Ratio')
mp.legend()
mp.show()
通过主成分分析(PCA)降维
工程优化
1)根据信息熵的减少量计算每个特征对预测结果的影响程度,信息熵减少量越大的特征对预测结果的影响也越大。
2)根据上一步计算出的影响程度,按照从大到小的顺序,选择划分子表的特征依据,即优先选择影响程度最大的特征。
3)根据事先给定的条件,提前结束子表的划分过程,借以简化决策树的结构,缩短构建和搜索的时间,在预测精度牺牲不大的前提下,提高模型性能。
3.集合算法
1)所谓集合算法,亦称集合弱学习方法,其核心思想就是,通过平均或者投票,将多个不同学习方法的结论加以综合,给出一个相对可靠预测结果。所选择的弱学习方法,在算法或数据上应该具备足够分散性,以体现相对不同的倾向性,这样得出的综合结论才能够更加泛化。
2)基于决策树的集合算法,就是按照某种规则,构建多棵彼此不同的决策树模型,分别给出针对未知样本的预测结果,最后通过平均或投票得到相对综合的结论。
3)根据构建多棵决策树所依据的规则不同,基于决策树的集合算法可被分为以下几种:
A.自助聚合:从原始训练样本中,以有放回或无放回抽样的方式,随机选取部分样本,构建一棵决策树,重复以上过程,得到若干棵决策输,以此弱化某些强势样本对预测结果的影响力,提高模型精度。
B.随机森林:如果在自助聚合的基础上,每次构建决策树时,不但随机选择样本(行),而且其特征(列)也是随机选择的,则称为随机森林。
C.正向激励:首先为训练样本分配相等的权重,构建第一棵决策树,用该决策树对训练样本进行预测,为预测错误的样本提升权重,再次构建下一棵决策树,以此类推,得到针对每个样本拥有不同权重的多棵决策树。