12.3 数据集
在进行人脸识别之前,需要先准备好数据集。该项目训练数据使用emore数据集,一共有85742个人,共5822653张图片,使用lfw-align-128数据集作为测试数据。
12.3.1 准备数据集
在本项目的素材文件中提供了标注文件,被存放在工程的“dataset”目录下,解压后即可使用。另外还需要下载下面这两个数据集,下载完成后也需要解压到“dataset”目录下。
- emore数据集
- lfw-align-128数据集
12.3.2 提取人脸
编写文件create_dataset.py,功能是将提取到人脸图片到“dataset/images”目录,并把整个数据集打包为二进制文件。之所以打包为二进制文件,因为这样可以大幅度的提高训练时读取数据的速度。文件create_dataset.py的主要实现代码如下所示。
# 从train.rec提前