说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。
1.项目背景
人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫做人像识别、面部识别。
人脸识别在本质上是根据每张人脸图像中不同像素点的颜色进行数据建模与判断。人脸图像的每个像素点的颜色都有不同的值,这些值可以组成人脸的特征向量,不过因为人脸图像的像素点很多,所以特征变量也很多,需要利用PCA进行数据降维。
本项目先对人脸数据进行读取和处理,再通过PCA进行数据降维,最后用支持向量机SVM算法搭建模型进行人脸识别。
2.数据获取
本次建模数据来源于网络(本项目撰写人整理而成),,数据项统计如下:
数据集中图片的文件名由4部分组成:
- 第1部分是该张图片对应的人脸编号;
- 第2部分是固定分隔符“_”;
- 第3部分是该张图片在该人脸10张图片中的顺序编号;
- 第4部分是文件扩展名“.jpg”。
以“10_0.jpg”为例,10代表编号为10的人的图片,“_”是第1部分和第3部分的分隔符,0代表这个人的10张图片中编号为0的那一张,“.jpg”为文件扩展名。
数据详情如下(部分展示):
3.数据预处理
3.1 图片数据读取
使用os模块列出前5个图片的名称:
从上图可以看到,总共有9个字段。
关键代码:
3.2 特征变量提取
使用Image. convert('L')方法进行特征变量提取:
关键代码:
3.3 图片灰度值数据框显示
使用Pandas工具的DataFrame()方法进行转换:
3.4 批量处理图片
通过for循环批量处理图片:
3.5 目标变量提取
通过Image模块的open()方法读取目标变量:
关键代码:
4.探索性数据分析
4.1 显示第一张图片
用Image工具的open()方法进行图片的显示:
5.特征工程
5.1 数据集拆分
数据集拆分,分为训练集和测试集,80%训练集和20%测试集。关键代码如下:
5.2 PCA数据降维
使用PCA算法进行数据的降维,输出如下:
关键代码如下:
6.构建人脸识别模型
主要使用SVC算法,用于目标分类。
6.1 模型构建
7.模型评估
7.1评估指标及结果
评估指标主要包括准确率、查准率、召回率、F1分值等等。
从上表可以看出,人脸识别模型效果良好。
关键代码如下:
7.2 查看是否过拟合
查看训练集和测试集的分数:
通过结果可以看到,训练集分数和测试集分数基本相当,所以没有出现过拟合现象。
关键代码:
7.3 分类报告
人脸识别模型分类报告:
从上图可以看出,分类为1的F1分值为1.00;分类为2的F1分值为1.00,其它类型的以此类推。
8.结论与展望
综上所述,本项目采用了PCA数据降维和SVM支持向量机分类模型,最终证明了我们提出的模型效果良好。
# 本次机器学习项目实战所需的资料,项目资源如下: # 项目说明: # 链接:https://pan.baidu.com/s/1RJoJywdZ0YQLBZZDC9Gqww # 提取码:mv6g print(names[0:5]) # 输出前5个文件的名称 from PIL import Image # 导入图像操作模块 img0 = Image.open('data\\' + names[0]) # 读取第1张图片,注意这里连接文件路径时最好使用两个反斜杠“\\”,以取消单个反斜杠可能带来的特殊含义。 img0.show() # 显示该图片 # 人脸数据处理 - 特征变量提取 import numpy as np # 导入科学计算模块 # 对上面读取的图片img0进行灰度转换,参数'L'指转换成灰度格式的图像。在进行灰度处理后,图像的每个像素点的颜色就可以用0~255的数值表示,称为灰度值, # 其中0代表黑色,255代表白色,(0,255)区间的数值则代表不同程度的灰色。这样便完成了将图像转换成数字的第一步,也是非常重要的一步。 img0 = img0.convert('L') # 调整图像尺寸为32×32像素,从左上角第1个像素点到右下角最后一个像素点就共有1024个像素点,而每个像素点都对应着一个灰度值(0~255), # 这样每张图片就都有了1024个特征,每个特征变量的值就是灰度值。这个就是之后构造特征变量搭建模型的基础。 img0 = img0.resize((32, 32))