一、背景需求
因测试AI人脸识别项目,从LFW图像库中,我们要准备两组数据:
1. 3万组预期结果为“匹配”的图像集合
2. 3万组预期结果为“不匹配”的图像集合
组长让我们写个python脚本自动生成测试图像数据。简单介绍一下LFW,它是无约束自然场景人脸识别数据集,主要测试人脸识别的准确率,该数据集由13000多张全世界知名人士互联网自然场景不同朝向、表情和光照环境人脸图片组成,共有5000多人,其中有1680人有2张或2张以上人脸图片。每张人脸图片都有其唯一的姓名ID和序号加以区分。
二、整理思路
LFW数据集已经在我本地电脑上,它的结构是:一个LFW主文件夹,下面有5000多个以人名命名的子文件夹,子文件夹中是对应人名的人脸图片,图片命名规则是人名_0001.jpg.
创建3万组预期匹配的图像集合的过程如下:
- 从LFW子文件夹中,找出那些有2张或2张以上人脸图片的文件夹
- 从同一人名文件夹中取出不重复的2张人脸图片
- 循环取3万组不重复的数据(A_0001.jpg A_0002.jpg与A_0002.jpg A_0001.jpg视为重复数据)
- 写入一个txt文件
创建3万组预期不匹配的图像集合的过程如下:
- 让LFW子文件夹两两组合(5000多个人名文件夹共有一百多万种组合)
- 从组合的2个子文件夹中分别随机取出1张人脸图片
- 重复步骤2,