人脸识别——筛选与删除重复或近似重复数据提高人脸识别的精确度

本文链接：https://blog.csdn.net/matt45m/article/details/139239001

1. 概述

人脸识别研究通常使用从网上收集的人脸图像数据集，但这些数据集可能包含重复的人脸图像。为了解决这个问题，我们需要一种方法来检测人脸图像数据集中的重复图像，并提高其质量。本文介绍了一种检测人脸图像数据集中重复图像的方法。该方法适用于从网络上收集的五个人脸图像数据集（LFW、TinyFace、Adience（已对齐）、CASIA-WebFace 和 C-MS-Celeb（已对齐））。这些去重数据集均可公开获取。还对人脸识别模型进行了实验，以研究去重复数据集的影响。

论文地址：https://arxiv.org/pdf/2401.14088.pdf
源码地址：https://github.com/dasec/dataset-duplicates

2. 重复检测方法

本文研究了精确重复（完全匹配的重复图像）和近似重复（不完全匹配但应视为重复图像）的检测方法。

所谓 “完全重复”，是指通过比较数据，两份数据完全匹配，即可识别出重复数据。为了提高计算效率，我们使用 BLAKE3 哈希算法收集一组初始数据来检测重复数据。由于相同的数据总是产生相同的哈希值，因此不会出现因哈希值而导致的假阴性，但会出现假阳性（哈希碰撞）。因此，我们引入了一个额外的步骤来检查文件数据是否与哈希值发现的重复数据集完全匹配。虽然这只是一个非常简单的检查步骤，但我们却能在所有数据集中检测到 “完全重复”（请注意，结果显示，这里应用的五个数据集在创建时并未执行此类检查）。

其次是 “近似重复”，指的是略有不同但应视为重复的相似图像，例如在人脸识别研究中。下图就是一个例子。

这种 "近乎重复 "的定义各不相同。本文根据 Python 软件包 "ImageHash "的默认设置，使用了两种图像散列方法 "pHash（感知散列）"和 “抗裁剪散列”。

与 "抗裁剪散列 "相比，"pHash "检测到的重复图像更多，这表明 "抗裁剪散列 "在某些情况下可能无法成功应用。图像散列功能检测到的重复图像集可能会重叠，因此纠正误报和合并（删除）重复图像集是去重过程的重要组成部分。

人脸识别和人脸图像质量评估模型依赖于人脸图像预处理。这些模型根据检测到的面部地标对原始人脸图像进行裁剪和对齐。本文介绍的重复检测方法对这种预处理后的人脸图像效果很好。

这是因为预处理所需的面部地标检测可能会在某些图像上失效，而且预处理/原始图像的变化可能会产生一组没有自己的重复图像。因此，应该在对未改动的原始图像进行重复检测后，再进行额外的步骤。

本文使用 ArcFace 中使用的相似性变换对人脸图像进行预处理。在检测到多张人脸的图像中，根据检测边界框的宽度和高度、与图像中心的距离以及检测器的置信度分数来选择主要人脸。所有预处理图像的宽度和高度均为 112 x 112。下图显示了一个预处理样本。

地标检测失败的人脸图像数量分别为：LFW 为 0，TinyFace 为 859（根据原始图像的检测结果，只有 4 幅重复），Adience 为 79（9 幅重复），CASIA-WebFace 为 129（2 幅重复），C-MS-Celeb 为 6。179 幅图像（351 幅重复）。这些图像在额外的重复检测步骤中不予考虑，建议在验证原始图像后作为额外步骤进行。

下表概述了所研究的数据集，显示了图像和重复图像的总数。Intra "表示主体内重复（重复集中的所有图像只属于一个主体），"Subjects-w.-intra "表示至少有一个主体内重复的主体，"Inter "表示主体间重复（重复集中的所有图像属于多个主体），"Subjects-w.-inter "表示至少有一个主体间重复的主体。Subjects-w.-inter "代表至少有一个主体间重叠的主体。

LFW、TinyFace 和 Adience 各包含不到 20,000 张人脸图像；CASIA-WebFace 和 C-MS-Celeb 分别包含 494,414 和 6,464,016 张人脸图像；只有 LFW 有极少量的重复；CASIA-WebFace 和 C-MS-Celeb 包含超过 20,000 张人脸图像。TinyFace 还包含 153428 张非人脸图像，本文不考虑这些图像。CASIA-WebFace 中重复图像的绝对数量高于较小的数据集，但重复图像占人脸图像总数的比例相对较低。(不包括 LFW）。

C-MS-Celeb 是 MS-Celeb1M 的子集，带有干净的主题标签。本文使用的是 ALIGNED 版本。在所研究的所有数据集中，该数据集的重复绝对数最高，相对于人脸图像总数的重复比例也最高。在该数据集中，有 33918 张主体间重复图像同时也是主体内重复图像。因此，属于某些重复集的图像总数为 885 476 张。这种主体内/主体间重复的重叠现象在其他数据集中并不存在，因此每个数据集的总数量只是主体内和主体间数量的总和

重复检测方法可用于识别单个数据集内部以及多个数据集之间的重复数据。这种方法可以消除从不同来源收集的数据集之间的无意重复。在使用预处理图像时，数据集之间发现了新的重复数据，这些重复数据被人工识别为真阳性数据（主要是 CASIA-WebFace 和 C-MS-Celeb 之间的重复数据，在其他地方也有发现）。