前言
在之前的对IU的人脸识别中,在使用face_recognition库进行人脸提取的过程中,发现这个人脸识别库还有一个提取特征点的功能,可以根据人脸提取出特征向量。而之前那个利用siamenetwork的效果并不好,我猜测是网络结构不佳,或是数据集没处理好,导致对人脸的特征提取和学习都不够好。那么既然这个face_recognition库能够提取人脸的特征向量,那么可不可以就利用这个向量来训练模型。正是基于这样的想法,我进行了本次尝试。
利用face_recognition库对人物图片提取人脸,并生成特征向量,利用SVM(支持向量机)进行学习,实现二分类任务(是IU/不是IU)。
项目环境:Python 3.6
一、项目结构
二、使用步骤
1.生成特征向量
打开路径中的每一张人脸,生成特征向量后,添加到face_encodings中,最后再统一存放到对应路径下的.npy文件中去。代码如下:import face_recognition
import numpy as np
import os
if __name__ == '__main__':
mark1 = 'IU' # 文件标志,用于路径
mark2 = 'Other'
marks = [mark1, mark2]
for mark in marks:
root = "E:/Table/学习数据集/face_recognition/data/processed/train/" + mark + '/'
img = os.listdir(root)
face_encodings = []
for i in range(len(img)):
try:
path = root + '%d.JPG' % i
print(path)
image = face_recognition.load_image_file(path)
face_encoding = face_recognition.face_encodings(image)[0] # 计算图片对应的编码
except (IndexError):
print('too much faces, continue')
continue
else:
face_encodings.append(face_encoding)
new_path = "E:/Table/学习数据集/face_recognition/data/" + mark + '.npy'
np.save(new_path, face_encodings)
2.训练模型
先读入IU.npy,记录数据长度,将对应标签置为0。再读入Other.npy,将对应标签置为1。利用sklearn库中的svm进行训练,可以得到一个二分类的分类器。将待分辨的人脸提取出特征向量放入分类器clf,得到的结果若是0,则说明是IU,将对应图片复制到指定文件夹下。 代码如下:from sklearn import model_selection, svm
import numpy as np
import os
from PIL import Image
import face_recognition
import shutil
GET_IU = 1
if __name__ == '__main__':
label = []
data_iu = np.load("E:/Table/学习数据集/face_recognition/data/IU.npy")
print(len(data_iu))
for i in range(len(data_iu)):
label.append(0)
print(len(label))
data_other = np.load("E:/Table/学习数据集/face_recognition/data/Other.npy")
print(len(data_other))
for i in range(len(data_other)):
label.append(1)
label = np.asarray(label)
label = label.reshape(-1, 1)
print(len(label))
data = np.vstack((data_iu, data_other))
print(len(data))
train_data, test_data, train_label, test_label \
= model_selection.train_test_split(data, label, random_state=1, train_size=0.6, test_size=0.4)
print(train_data.shape)
print(train_label.shape)
clf = svm.SVC(C=0.8, kernel='rbf', gamma=20, decision_function_shape='ovr')
clf.fit(train_data, train_label)
print('训练集准确率:%.03f%%' %(100 * clf.score(train_data, train_label)))
print('测试集准确率:%.03f%%' %(100 * clf.score(test_data, test_label)))
# 开始判别,从’待分辨人脸‘中找出IU存放到’IU_pic‘
#############################################################################################
if GET_IU == 1:
judge_root = 'E:/Table/学习数据集/face_recognition/face_for_judge/'
img_judge = os.listdir(judge_root)
new_path = 'E:/Table/学习数据集/face_recognition/IU_pic/'
result = []
n = 0
for i in range(len(img_judge)):
try:
path = judge_root + '%d.JPG' % i
print(path)
image = face_recognition.load_image_file(path)
face_encoding = face_recognition.face_encodings(image)[0] # 计算图片对应的编码
except (IndexError):
print('too much faces, continue')
continue
else:
face_encoding = face_encoding.reshape(1, 128)
id = clf.predict(face_encoding)
if id == 0:
shutil.copy(judge_root + img_judge[i], new_path)
n += 1
print('/n在%d张图片中,共找到%d张IU的图片' % (len(img_judge), n))
#############################################################################################
3.运行结果
在数据集上可以达到很好的效果,但是在实际使用过程中,对IU的人脸识别还是不是很准确。猜测有一部分的可能性是因为我从网上爬取的人物图片中,IU的图片只占了很小一部分(9/1000),这导致二分类的分类器工作难免有较大的误差。将爬取图片中IU图片的比例增大(500/1500),效果确实会好一点点,但也不明显。
总结
我又失败啦,果然在自己爬取的数据集上进行人脸识别还是比较困难的呀。