本文会不定期更新
1、引言
在模式识别领域,指纹识别是少有的、依赖传统技术就能够取得很高识别率的子领域。早在1970年代,当时的自动指纹识别技术就已经能帮助警方破案了。可能因为传统技术太成功了,深度学习在指纹识别领域的应用起步较晚。不过随着深度学习的蓬勃发展,研究者逐渐基于各种深度学习技术实现了指纹识别的各个模块,取得了越来越好的性能。
2019年,Springer出版社联系Handbook of Fingerprint Recognition前两版(2004第一版,2009第二版)的作者写第三版的时候,Maltoni教授曾经有点犹豫。他觉得,如果是10年前人脸识别的专著,现在肯定需要重写了,因为过去10年传统人脸识别技术已经被深度学习颠覆了。但是,在指纹识别领域,深度学习还不能算是革命,更谈不上颠覆了传统技术。Handbook似乎没必要做大幅的更新。
我没有做市场调研,但我相信目前相当多的指纹识别产品不是基于深度学习技术。几十元钱的考勤机、一百多元钱的指纹锁,还没有WIFI模块,不可能跑深度学习算法。我相信,再过10年,深度学习也不可能完全取代传统指纹技术。有许多应用场景需要极低成本、极低功耗的身份识别方案。也正是因为传统指纹技术可以在低成本的计算平台上取得很不错的性能,指纹识别的应用才能无孔不入。这是指纹相比人脸等生物特征的一大优势。
但是,深度学习确实给指纹识别领域带来了巨大的影响。单说现场指纹识别。警方理想中的现场指纹识别系统应该和活体指纹识别系统一样准确、方便。用户输入现场指纹图像;如果库里没有该指纹,系统就说没有;如果有,就只返回那一个正确的库指纹。靠传统经验设计的算法,识别性能已经很难提高了,不太可能实现这样的理想目标。近几年学术界、工业界设计现场指纹识别算法,都是采用基于深度学习的方案。在其他应用领域,在硬件条件允许的情况下,深度学习也都是优选的方案。
本文不打算罗列所有利用深度学习的指纹识别论文,只介绍本人比较熟悉、有代表性的论文,是一篇有选择性的综述。
下面从特征提取、匹配、合成、伪指纹检测等方面展开讨论。
2、指纹特征提取
指纹的特征可以分为从粗到细的三个级别。第1级:脊线方向场和频率图(奇异点是方向场的特殊点);第2级:脊线骨架图(细节点是脊线的特殊点);第3级:脊线的内外轮廓(汗孔即内轮廓)。这些特征都是围绕脊线定义的,是有解剖学意义的。
姿态并不是指纹的特征,而是为指纹特征定义了坐标系,如果要分级,可以算作0级特征。姿态也是有解剖学意义的,中心位于指肚中央,方向指向指尖。
近年来研究者提出了多种基于深度学习的指纹特征提取方法。
2.1 姿态估计
指纹姿态可以对指纹特征提取和各种匹配方法发挥基础性的作用。但是,长期以来指纹识别领域忽视(或者说回避)了指纹姿态估计问题。原因是大家普通认为指纹的姿态很难测量准确,而测得不准确就没法用,用了不准确的姿态对于识别性能有害。但是,近年来姿态估计的性能稳步提升,在方向场估计、指纹检索、指纹匹配上已经发挥了显著的作用。指纹姿态估计类似计算机视觉中的物体检测问题,早期的方法是基于投票(Yang等,2014)或者传统分类器(Su等,2016)。近年来,研究者提出了多种基于深度网络的指纹姿态估计方法。
2.1.1 基于Faster R-CNN的方法
Ouyang等人(2017)首先将深度学习应用于指纹姿势估计。作者基于Faster R-CNN物体检测框架实现指纹的中心和方向估计,通过类内和类间组合策略确保输出单个准确姿态。在滚动指纹数据集的实验表明,该方法估计的姿态比之前方法(Yang等,2014;Su等,2016)更精确(与姿态真值的偏差小;对齐后匹配细节点的距离近),而且运行速度快。实验还证明,通过利用该姿态约束基于细节点的指纹检索算法,取得了更高的检索准确性。
2.1.2 姿态和奇异点联合估计
Yin等人(2021)在分析传统的指纹姿态和指纹奇异点提取算法的基础上,设计了一个统一的深度网络进行指纹姿态与奇异点的联合提取,网络结构如下图所示。网络包含四个部分,分别是特征提取骨架、奇异点估计模块、注意力机制模块和姿态回归模块。特征提取模块包含三层卷积模块和一个空洞卷积金字塔,用于提取底层特征。奇异点估计模块分别提取中心奇异点和三角奇异点的概率热力图。注意力机制模块用于在特征层中计算出对姿态估计有意义的区域。姿态回归模块最终通过全连接层对指纹的中心位置和角度进行输出。
作者使用了NIST SD4的2000个库指纹及其手标奇异点和姿态对网络进行训练。针对现场指纹,则使用了海鑫现场指纹库的200个现场指纹进行再次训练。每个指纹在训练过程中会进行随机的平移和旋转变换进行数据增广。作者在NIST SD4、NIST SD14滚动指纹库、FVC2004 DB1A平面指纹库和NIST SD27现场指纹库上进行了测试,通过比较手标细节点对位置差异和基于姿态的索引结果进行姿态的结果比较。下图的案例表明该方法均优于已有的姿态估计算法,并且能够同时输出中心和三角奇异点的位置。
2.1.3 稠密投票的姿态估计
Duan等人(2023)认为指纹领域中广泛存在的残缺问题(例如平面指纹、现场指纹等)可以通过投票策略进行缓解。作者结合了投票策略与深度学习技术,将指纹中心位置和朝向的估计问题均转换为稠密的偏移向量估计,实现了多种类型指纹图像上的准确指纹姿态估计,网络结构如下图所示。网络包含三个模块,分别是特征提取骨架、稠密估计模块和姿态(投票)整合模块。特征提取模块基于ResNet-18构建(去除了最后的分类层),用于提取局部特征。稠密估计模块在每个局部区域内进行估计,共输出6个通道,分别为与朝向无关的偏移向量场、与朝向相关的偏移向量场、指纹前景分割以及指纹朝向注意力图像。姿态(投票)整合模块则是将上述稠密估计输出进行整合得到最终的指纹姿态。
作者针对滚动指纹、平面指纹和现场指纹分别使用相应的指纹数据进行了网络训练,之后不再对特定的数据集进行模型微调。每个训练指纹数据在训练过程中会进行随机的平移、旋转、水平翻转以及高斯加性噪声来进行数据增广。作者在包含滚动、平面、非接触以及现场指纹的10个不同类型的指纹数据集上进行了测试,通过细节点对齐的一致性、引入姿态约束后的指纹检索、指纹匹配的性能表现来评测姿态估计的效果。下面的案例表明该方法相较于之前的姿态估计算法表现出更准确且一致的姿态估计结果。
2.2 方向场估计
估计指纹局部脊线方向是指纹识别系统中的关键步骤,对于指纹脊线增强、指纹分类、指纹匹配等后续步骤非常重要。传统的方向场估计方法没有利用机器学习的技术,对于低质量指纹(例如现场指纹)的性能很差。基于字典的方法(Feng等,2013;Yang等,2014)能从大量样本学习指纹的先验规律,将方向场估计性能提高了一截。近来,研究者纷纷转向基于深度学习的方案,以进一步提升方向场估计算法的推理能力。
2.2.1 方向块分类
Cao和Jain(2015)将指纹图像块的方向场估计视为分类问题,提出了一种基于卷积神经网络(ConvNet)的现场指纹方向场估计方法。给定从现场图像提取的图像块,它们的方向块由经过训练的ConvNet预测并拼接在一起,以形成整个现场指纹的方向场。
具体来说,首先利用传统算法从NIST SD4数据库中获得块大小为16×16像素的所有方向场。该数据库包含五种指纹类型中每种指纹的约400个滚动指纹。从这些方向场中选择大小为10×10的方向块。然后采用快速K均值聚类方法将这些方向块聚类为128个方向模式(部分见下图)。
从另一个更大的滚动指纹数据库NIST SD14中,选择大量大小为160×160像素的指纹块,通过计算与每个方向模式的方向相似性,将其分配给相应的方向模式。对于每个方向模式,一共收集了1万个指纹块,用于128类ConvNet分类网络的训练(结构如下图)。为了模拟现场指纹,还在这些图像块上叠加线条等噪声,得到更多的训练样本。
给定现场图像,该方法估计方向场的流程如下(见下图):(1)采用预处理步骤去除大尺度背景噪声,增强脊线结构;(2)将预处理的图像划分为重叠的图像块,并将每个块送到训练好的ConvNet以预测其方向模式;(3)将所有预测方向模式拼接在一起,形成整个方向场。
2.2.2 方向场残差回归
Duan等人(2021)认为之前的现场指纹方向场提取算法主要针对局部图像特征,指纹方向场的整体规律没有得到更多的关注。指纹的方向场具有显著的规律性:在指纹的同一区域内方向场的分布具有相似性,但在不同区域中方向场的分布不同。这种规律包含了丰富的先验信息,有助于进行现场指纹的方向场提取。
作者分析了不同纹型下指纹方向场的分布规律,对NIST SD4中的高质量指纹按照不同的指纹纹型进行了统计方向场的分布规律,将统计得到的平均方向场作为初始化,并用深度网络预测真实方向场与平均方向场之间的误差,从而在保证整体方向场分布合理的情况下,提高局部方向估计的准确性,并且在图像噪声较强的位置使用平均方向场作为先验知识。为了模拟现场指纹用于训练,作者随机挑选了NIST SD14指纹库中的8100张高质量滚动指纹,并提取了方向场和指纹分割作为标注,然后将这些指纹随机与自然(灰度)图像通过最小投影的方式合成现场指纹作为方向场预测网络的训练数据。
作者使用NIST SD27数据库中的258对滚动指纹和现场指纹对方向场的预测性能进行评测。首先在真实的指纹前景区域内评测方向场的预测性能,然后添加NIST SD14指纹库中的27000张滚动指纹作为背景库来评测方向场提取对指纹识别性能的影响。实验结果表明该方法均优于之前的算法。
2.3 脊线和细节点提取
脊线和细节点是密切相关的特征,因此将它们的提取合并讨论。这里具体描述两种方法(Tang等人,2017;Dabouei等人,2018)。
2.3.1 FingerNet
Tang等人(2017)结合指纹领域知识和深度学习的表示能力来设计细节点提取的深度卷积网络。首先将传统的指纹处理流程包括方向估计、分割、增强和细节点提取,转换为具有固定权重的卷积网络(如下图所示)。
然后扩展为权重可学习的FingerNet网络(下图)以增强其表示能力。FingerNet网络是完全可导的,可以从大量数据中学习网络权重。首先,针对输入指纹图像,采用像素级归一化来固定输入图像的均值和方差。之后的整个网络分为三个部分:方向场估计和分割、增强、以及细节点提取。
方向场和分割模块的骨干是VGG网络,它由几个卷积-BN-pReLU块和最大池化层组成。在基本特征提取后,采用空洞空间金字塔池化(ASPP)层获取多尺度信息。空洞卷积的比例为 1、4 和 8。随后,对各尺度的特征图进行平行方向回归,直接预测每个输入像素90个离散角度的概率,得到方向分布图。并进行分割图回归,以预测每个输入像素为感兴趣区域的概率,得到分割得分图。
Gabor增强直接作为增强模块。其中,脊线频率取固定值,脊线方向离散化为90个离散角,对应于方向分布图。将相位组乘以上采样的方向分布图,即可获得最终的增强指纹图像。具体来说,Gabor滤波器的参数是可设置的,并在训练过程中进行微调。
增强的指纹图像被发送到细节点提取模块。该模块的主干也是VGG网络,后接ASPP层。特征提取后,细节点提取部分输出四种不同的图以满足网络要求。第一幅图是细节点得分图,它表示每个8×8块包含细节点的概率。第二幅和第三幅图是细节点的X/Y概率图,用于通过8个离散位置分类任务进行精确定位。最后一幅图是细节点方向分布图,它表示细节点方向,类似于方向分布图。
每个输出的损失函数如下图所示。由指纹专家标注的细节点被用作真值。由于方向场和分割图没有真值,因此由细节点和匹配的档案指纹分别生成弱标签和强标签。弱方向标签是传统方法提取的对齐档案指纹的方向场。强方向标签是细节点方向。最后,通过扩张细节点集合的凸包得到现场指纹的弱分割标签。
作者在NIST SD27和FVC2004数据库上进行了实验。在NIST SD27上,提取的细节点和真值之间的位置和角度平均误差分别为4.4像素和5.0°。在FVC2004上,位置和角度的平均误差分别为3.4像素和6.4°。下图显示了一个示例,其中包含FingerNet提取的方向场,增强的前景区域和细节点。
此外,作者还进行了识别实验,以测试指纹匹配是否可以受益于FingerNet。结果表明,由于细节点提取得更好,FingerNet的识别率优于其他方法。例如,和VeriFinger细节点提取方法相比,FingerNet的rank-1识别率高出约19%。
2.3.2 条件生成对抗网络
Dabouei等人(2018a)提出了一种基于条件生成对抗网络(cGAN)的直接现场指纹重建模型。作者对cGAN进行了两种修改,以使其适应现场指纹重建的任务。首先,强制模型在脊线图上生成三个附加图,以确保在生成过程中考虑方向和频率信息,并防止模型填充大面积缺失区域并产生虚假细节点。其次,开发了一种感知ID保留方法,强制生成器在重构过程中保留ID信息。作者使用合成的现场指纹数据库,训练深度网络预测输入现场图像的缺失信息。
该模型由三个网络组成:生成器、指纹感知ID信息(PIDI)提取器和鉴别器(见下图)。该生成器是一个U-net网络,它获取输入的现场指纹并同时生成脊线、频率图、方向图和分割图。重建误差是生成的各图与其各自真值误差的加权和。在此之后,生成的图与输入的现场指纹连接,为鉴别器提供条件。真值图是从原始的干净指纹中提取的,这些指纹首先被扭曲以模拟现场图像。在训练阶段,这些图用于为鉴别器提供监督。
指纹PIDI提取器是来自深度孪生指纹验证器的一支,该验证器使用对比损失进行训练。它被训练为指纹验证器,以提取生成图的感知ID信息(PIDI)。提取的PIDI是验证器模块前四个卷积层的输出特征图,并连接到判别器的相应层,以强调判别器决策上的ID信息。
鉴别器是一个深度CNN,它将大小为256×256×5的生成器的条件输出映射到大小为16×16×1的判别矩阵。相应的现场指纹连接到生成的或真值图以充当条件。指纹验证器获得的PIDI也会传递给鉴别器。
作者在IIIT-Delhi MOLF数据库上进行了实验。现场与活体指纹匹配的rank-50准确度为70.89%,现场与现场指纹匹配的rank-10准确度为88.02%。此外,使用NFIQ测量重建指纹的质量表明,与原始现场图像相比,生成指纹的质量明显升高。
2.4 三维手指重建
手指本身是三维物体,三维指纹是指纹最原本的形态。三维指纹相比二维指纹的优势包括:(1)避免皮肤变形;(2)无需滚动手指,即可一次采集完整的指纹;(3)三维信息具有额外的辨识力。研究者提出了多种三维指纹采集技术(Kumar,2018)。但是由于体积庞大、成本高、识别性能的优势不明显,这些三维指纹采集技术目前还没有取得大规模的应用。
Cui等人(2023)提出了由一幅非接触指纹图像重建三维指纹的技术,仅仅需要普通的相机即可采集三维指纹,显著降低了硬件成本。不同于之前过于依赖硬件的三维采集方案,该方案借助机器学习技术从大量样本学习手指三维形状先验以及二维非接触图像包含的三维信息。实验表明,该技术重建的三维指纹与庞大且昂贵的结构光三维成像设备的重建结果非常接近。
该三维指纹重建算法利用神经网络从单幅非接触指纹图像中估计出表面梯度,随后得到表面形状。算法核心是下图所示的梯度估计网络。网络输入预处理过的图像和掩膜,输出方向场、周期图和梯度。网络第一部分是图像归一化,来调整图像亮度;第二部分是方向场和周期图特征提取网络,包括3个卷积和池化块来提取原图1/8大小的特征图;第三部分分别回归方向场和周期图;最后第四部分从方向场和周期图中回归梯度。
3、指纹匹配
给定两枚指纹的特征表示,指纹匹配算法将二者对齐、比较特征的一致性、并得出匹配分数(例如,分数介于0到1之间,1表示最相似)。特征表示对于指纹匹配算法设计的影响是根本性的。常见的两种特征表示是细节点集合和定长特征向量。各种指纹匹配算法通常首先需要解决配准(对齐)问题。
由于手指皮肤的变形是弹性的,刚性配准并不能消除弹性变形。稠密配准技术能测量指纹图像之间的像素级变形场,并消除变形,因此对于各种匹配方法都有利。稠密配准去变形的技术会导致大库指纹比对很慢,而扭曲自校正技术可以在匹配前直接去除单幅指纹图像可能存在的扭曲,非常适合大库比对。
3.1 基于细节点的匹配
3.1.1 细节点深度描述子
细节点描述子是细节点匹配的非常重要的组成部分。过去,细节点描述子通常是根据经验设计的。其中,精心设计的描述子(如MCC)在活体指纹和油墨指纹的匹配方面表现相当不错。然而,在现场指纹匹配中,由于缺乏细节点和自动提取细节点的可靠性低,这些描述子的性能会大大降低。Cao和Jain (2019)提出使用ConvNet进行细节点描述子的提取。
该细节点描述子是从不同比例和位置的14个图像块中学习的(如下图所示)。对于从同一细节点提取的每个图像块,训练一个ConvNet以获得特征向量,最后将14个 ConvNet输出的14个特征向量中的一个子集连接成一个细节点描述子。
训练细节点图像是从密歇根州警方指纹数据库中提取的。该数据库包含1311人的十指指纹,每个手指至少有10个滚动指纹。每个不同细节点都被视为一个类,并且仅保留具有8个以上样本的类。在这种情况下,每个ConvNet都被训练为多类分类器。在测试时,每个ConvNet的最后一个全连接层的输出被视为输入图像块的特征向量。
3.1.2 细节点深度稠密描述子
基于细节点的描述子通常需要根据每个细节点的位置和方向对指纹图像进行裁剪和对齐,然后提取特征表示。这种处理方法不仅使匹配对原始指纹二维姿态变化具有鲁棒性,同时也统一了待匹配原始指纹图像的空间标准。然而,之前的一些深度细节点描述子方法(如3.1.1节中的Cao和Jain (2019)的方法)使用一维抽象向量作为指纹片段图像的描述,忽略了描述子元素匹配与原图匹配的空间对应关系;另一方面,Cao和Jain的方法需要利用稠密的指纹方向场来裁剪密集的指纹图像以提取虚拟描述子进行补充表示,这大大增加了描述子提取和匹配的时间复杂度和计算复杂度。
为了适应统一指纹空间标准的图像匹配,Pan等人(2024a)提出了一种新的稠密描述子表示形式,并应用于细节点描述子,提出了稠密细节点描述子(Dense Minutia Descriptor,简称DMD)。稠密细节点描述子是一种三维表示,其中两维表示二维空间并与原指纹的二维空间对应;稠密细节点描述子通过局部稠密描述与前景分割图进行哈达玛积运算得到,使得描述子仅在前景区域内有效。因此,稠密描述子之间的匹配是在同一空间下的同一位置点之间进行,并且仅在两指纹图像的重叠前景区域进行。此外,为避免重叠前景区域面积不同对描述子相似度的影响,该方法在计算匹配分数时根据重叠面积大小进行了标准化。
该方法在NIST SD27和N2N Latent两个现场指纹库上进行了实验评测。实验结果表明,与其他细节点描述子(如Cappelli等的MCC、Cao和Jain的细节点深度描述子、Ozturk等的MinNet)、以及商用细节点匹配方法(VeriFinger v12.0)相比,该方法表现出了更优越的性能。
3.2 基于定长表示的匹配
将指纹表示为像人脸、虹膜那样的定长向量,是非常吸引人的想法。指纹的定长表示在匹配速度、模板加密等方面,相比传统的细节点表示,具有根本上的优势。但是这条路很难走。自FingerCode(Jain等人,2000)以来,这个方向一直没有大的进展。受益于深度学习技术和大规模训练数据,近年来这个方向的进步很大。
3.2.1 DeepPrint
Engelsma等人(2021)提出的DeepPrint将指纹定长表示的研究向前推进了一大步。
DeepPrint有三个主要模块。第一个是对齐模块,采用空间转换网络将指纹对齐到同一坐标系中。然后将对齐的指纹图像送到基本网络,其输出再送到两个分支。第一个分支直接用于特征提取和损失计算,该纹理特征与脊线方向和频率高度相关。第二个分支是自定义网络,捕捉细节点特征。有两个损失函数,一个是细节点的重建损失,另一个是分类损失。作者使用2.1节提到的密歇根州警方指纹数据库进行网络训练。
纹理表示和细节点表示的特征长度均为96。因此,最终指纹表示是这两个表示的串联,一个192维的特征向量。 在串联之前,将这两种表示形式归一化为单位长度以消除范数的影响。 对于匹配,使用余弦距离来计算两个指纹表示之间的相似性。下图的两个例子,左指纹对是一对匹配指纹,但被细节点匹配算法错误拒绝了。右指纹对是一对不匹配指纹,但被细节点匹配算法错误接受了。DeepPrint给出的匹配分数能正确辨别这两个例子,表明DeepPrint对湿指纹和皮肤变形比较鲁棒,并且能够学习到有鉴别力的特征。
3.2.2 多尺度定长表示
从犯罪现场采集的现场指纹被广泛用于识别犯罪分子身份。在实际应用中,现场指纹识别通常需要将一查询现场指纹与大规模的数据库进行一一比对,这对指纹匹配的准确性和效率提出了更高的要求。为了达到这一目的,通常将一快速的检索算法与准确但较慢的指纹匹配算法相结合。指纹检索通常用于在指纹识别之前选出一个较短的候选列表,用于在保持识别精度的同时减少搜索空间和时间复杂度。
尽管现场指纹检索十分重要,但相较于滚动指纹和平面指纹,有关现场指纹检索算法的研究仍然较少。由于现场指纹面积小、图像质量差、信息量差异巨大,已有滚动、平面指纹检索方法并不能简单迁移到现场指纹检索。针对现场指纹检索问题,Gu等人(2022)提出一种基于多尺度定长表示的检索算法。对于大规模数据库的比对,指纹检索用于事先高效地排除大部分库指纹并筛选出一较短的候选列表,以减少后续匹配的比对次数,同时提升后续指纹匹配的精度与效率。
基于定长表示的指纹检索方法在指纹比对中只需要几次数学计算就可以计算出两个特征表示之间的距离,非常适用快速的大规模指纹比对。但是之前的指纹定长表示方法(如DeepPrint)没有充分考虑指纹残缺问题,易将指纹的背景噪声引入指纹的特征表示。Gu等人(2022)提出从多尺度不同位置的图像块中分别提取深度特征,通过局部图像块表示残缺现场指纹,充分考虑不同图像块的重要性并仅计算前景区域内的指纹相似度,以提升残缺现场指纹的识别性能。
下图给出了在Hisign和NIST SD27现场指纹库上的案例。当指纹质量较差导致增强后的指纹变得不完整甚至分离,或指纹质量较高但比较侧面导致指纹中心附近指纹区域较少时,DeepPrint这种从指纹中心区域提取全局特征的方法可能会引入较多的背景,性能反而比细节点方法更差,而该算法能可靠地从指纹前景区域提取特征并计算重叠区域相似度,有效地适应这种指纹残缺的情况。当指纹质量较差,细节点出现大量错误时,基于细节点的检索方法性能严重下降,而基于定长表示的方法从增强后的图像中提取深度特征,可以处理这样的情况。
在Hisign和NIST SD27现场指纹库上的检索性能如下图所示。对比来看,该多尺度定长表示方法的性能有明显的优势,在渗透率相同的情况下错误率明显低于其他方法,体现了该方法更适合有效面积较小的现场指纹。
3.2.3 孪生网络
Lin和Kumar(2019)提出了接触式/非接触式指纹之间跨模态匹配的定长表示方法。可能是因为缺乏训练样本,作者采用了孪生网络。其框架主要由三个子网络组成,每个子网络都有两个共享参数的网络分支(分别对应接触和非接触指纹)。该方法结构如下所示。第一个子网络输入为指纹脊线增强图和细节点图,第二个子网络输入为指纹模糊核心点后的区域,第三个子网络输入为指纹的核心点区域,每个子网络输出长度为1024的一维特征向量,最终直接合并为长度为3072的定长特征。指纹在输入网络前先根据指纹中心位置进行自动裁剪,并进行增强和细节点提取。训练时,构造接触/非接触指纹对的正负样本并使用对比损失函数。在比对时,直接计算两个指纹对应定长特征之间的欧氏距离。
定长特征提取的子网络结构如下图所示,图象依次经过四个卷积层,一个最大池化层和一个全连接层,得到对应的特征向量,不同子网络的接触/非接触特征提取模块之间参数共享。对于子网络1,由于有两个输入,在经过第一个卷积层后将两特征合并,再输入下一卷积层。
3.2.4 定长稠密描述子(FDD)
Pan 等人(2024b)提出了定长稠密描述子(Fixed-length Dense Descriptor,简称 FDD)。为确保定长表示的匹配性能,此类方法通常会对指纹图像进行空间对齐,然后提取特征(例如DeepPrint的对齐模块)。通过空间对齐,待匹配指纹的空间一致性得以保证,从而将匹配过程限制在重叠的前景区域。定长稠密描述子的提取过程分为两个阶段:第一阶段,使用Duan等人(2023)稠密投票方法进行指纹姿态估计,并根据估计结果对指纹图像进行对齐;第二阶段,使用定长稠密描述子特征提取网络来提取描述子(如下图右侧所示)。
定长稠密描述子的提取网络采用双分支设计(如下图所示)。其中,细节点分支(Minutia Branch)负责提取细节点图,作为一个子任务,使得该分支的描述子与细节点信息相关联。另一个分支为纹理分支(Texture Branch),负责提取与图像表面纹理相关的描述子表示,输出分割图作为子任务。通过综合两个分支的描述子及分割图,最终得到定长稠密描述子。该描述子表示包含多种语义信息,具有更强的区分能力。
作者在滚动指纹、平面指纹、现场指纹以及非接触式指纹上进行了匹配实验。结果表明,定长稠密描述子在确保匹配效率的前提下,其匹配性能优于之前的其他定长描述子。此外,与基于细节点的描述子匹配方法(Pan等,2024a)进行分数融合后,匹配性能优于两者单独使用时的表现,展现出其与细节点描述子方法的互补性。
3.3 指纹刚性配准
传统的指纹刚性配准方法主要是基于细节点匹配、方向场匹配、图像相关等。对于质量较好、面积较大的指纹,传统方法表现很好。它们难以处理的情况是低质量指纹(特别是现场指纹)和小面积指纹(例如手机的小面积指纹传感器)。
3.3.1 基于稠密采样点的指纹配准
Cao和Jain(2019)提出的虚拟细节点会受到局部脊线方向不稳定估计的影响,而这在现场指纹中很常见。此外,虚拟细节点不是显著特征,无法准确定位。为了克服虚拟细节点的不足,Gu等人(2021)提出了一种基于稠密采样点的现场指纹配准算法。
该算法的流程图如下图所示。对待配准的一对图像(现场指纹和滚动指纹),分别在两幅图像指纹区域内均匀采样获得稠密采样点,然后通过局部图像块的对齐和匹配估计两幅图像中采样点对之间的对齐参数和相似度。之后,根据各点对之间相似度得到采样点之间可能存在的对应关系,最后用基于谱聚类的全局匹配方法得到最终结果。
整个算法的核心是局部图像块的对齐与匹配。该模块的流程如下图所示。输入一对局部图像,图像块对齐网络估计它们之间的平移旋转参数。之后从对齐的图像块提取深度描述子,根据描述子相似度判断是否匹配。
此外,考虑到配准精度和时间复杂度,作者提出了一种由粗到精的配准方案。两阶段的配准流程相同,但精配准以粗配准结果为输入。上图显示的是其中一次配准的流程。在粗配准阶段,采样点之间间隔较大,两个指纹上的所有采样点一一比较以获取候选对应关系。在精配准中,采样点更稠密,但每个采样点只与其相邻采样点进行比较。用这样的方法,粗配准中比对次数更多,但采样点数较少;而精配准中采样点稠密,但每个点所需的匹配次数减少。
作者在现场指纹数据库NIST SD27上进行了配准实验。每对指纹均已知对应细节点对,以配准后的匹配细节点对之间的位置和方向差作为评价指标。和之前性能最好的现场指纹配准算法相比,该方法性能均更好。
指纹配准的最终目的是提升指纹匹配的性能,作者在NIST SD27进行了匹配实验。将一对输出指纹配准后,计算重叠区域内对应点的局部关键点描述子相似度,并用重叠区域内的所有描述子相似度的均值作为一对指纹的匹配分数。下图显示了匹配结果的CMC曲线。可见该配准算法和之前算法相比大大提升了匹配性能,在NIST SD27数据库上rank-1的识别率从61.6%提升到70.1%。
3.3.2 基于空间变换网络的配准
平面指纹广泛应用于民用领域,如手机、智能手表等设备的认证和交互过程中。考虑到便携性和便携式设备的成本问题,人们开始追求指纹扫描仪的小型化,这也限制了指纹图像的捕获面积,大大降低了传统指纹识别方法的性能。因此,小指纹匹配正成为智能便携式设备需要面对的一个新问题。
He等人(2022)提出了一种基于空间变换网络(STN)和局部自注意机制的小指纹匹配方法。整体识别流程如下图所示,对于输入的局部指纹对,先对其增强后输入相对姿态估计网络(AlignNet),预测其相对刚性变换参数,根据预测结果对指纹进行刚性变换,最后将对齐后的增强指纹输入比对网络(CompareNet)得到识别结果。
相对姿态估计网络结构如下所示,将输入图象2分别旋转0°、90°、180°、270°后与输入图象1合并以控制指纹对之间的相对角度差异,四组指纹对输入共享权重参数的ResNet34提取特征,该特征合并后经过多层感知器输出刚性变换参数的预测结果。
He等人(2022)的比对网络结构如下所示,将对齐的两幅指纹图像以三种分辨率输入编码器网络和对应的多层感知器,将特征合并后输入多层感知器以进行多尺度的融合,最终输出分类预测结果。
作者收集了电容传感器和屏下光学传感器采集的局部指纹,并在该数据集以及公开数据集FVC2004上进行了实验,结果表明该方法在局部指纹识别上相较于细节点匹配方法(VeriFinger)具有更好的性能,对于不同传感器类型也更加鲁棒。
3.4 指纹稠密配准
稠密指纹配准方法的精度受到指纹自相似性、噪声和扭曲的挑战。基于图像相关的稠密配准方法(Si等,2017)使用图像相关系数,容易受到这些挑战的影响;基于相位解调的稠密配准方法(Cui等,2018)容易受到指纹扭曲变形和噪声的影响,其中相位解包裹方法也受到误差累积的限制。
Cui等人(2021)首次将深度学习运用于指纹稠密配准,通过训练端到端网络,从指纹对中直接估计变形场。算法分为基于细节点的初始配准和基于网络的精配准两步。输入指纹首先根据匹配的细节点计算出空域变形进行粗配准,然后通过网络得到稠密的变形场进行精配准。
该网络结构参考光流估计网络,由两个并行的特征提取网络和一个编码-解码网络构成。网络是端到端训练的,输入两个粗配准的指纹,输出对应的变形场。为了生成网络的训练数据,作者利用清华扭曲指纹视频,通过视频追踪的方式得到扭曲变形场,再将变形场应用于现场指纹和低质量指纹,这样得到了大量指纹对作为训练数据。
通过在FVC2004、清华扭曲指纹库(TDF)、现场指纹库NIST-27上的配准和匹配实验表明,该稠密配准算法在配准误差和匹配误差上都优于之前的方法。由于利用了GPU的并行计算能力,该算法速度远快于之前的串行指纹配准算法。
Guan等人(2024)提出了聚合相位特征的双分支的稠密配准网络,进一步提升了指纹稠密配准的性能。该方法同样遵循基于细节点的粗配准和基于网络的精配准的两阶段框架。在精配准阶段,该网络引入了一种双分支结构,分别提取高分辨率的相位特征(稠密、灵敏)和低分辨率的纹理特征(稀疏、鲁棒),并在多个阶段进行信息交互,以综合利用两者的优势,从而在感知局部细微差异的同时保证全局的稳定性。此外,变形场的估计形式是基于离散区间的概率分布,而不是以前方法中的直接数值回归,以隐式地帮助网络理解相近位移场数值之间平滑且连续的过渡关系。
作者在包含不同类型指纹的数据库上进行了广泛的实验,包括不同的传感技术(光学、热成像、现场、非接触)和不同的皮肤状况(正常、干燥、潮湿、扭曲、残缺、老年人指纹)。实验结果表明,该算法实现了当时最先进的配准性能,同时在模型大小和推理速度方面具有一定优势。
3.5 指纹变形矫正
皮肤扭曲是指纹匹配中长期存在的挑战,它会导致错误的不匹配。Si等人(2015)的研究表明,通过对扭曲指纹进行扭曲场估计,然后将其校正为正常指纹,可以提高识别率。另一个类似的问题是矫正非接触指纹中的透视变形。
3.5.1 皮肤变形矫正
3.5.1.1 网络回归扭曲场主成分系数
Dabouei 等人(2018b)首次将深度学习用于指纹扭曲矫正。该方法流程如下图所示,通过训练深度全卷积网络,预测输入指纹变形主成分的系数,将该系数与对应模板加权得到预测的变形场,并通过薄板样条插值(TPS)对指纹进行矫正。作者在公开扭曲指纹库TDF以及含有扭曲指纹的数据库FVC 2004 DB_1上进行了识别实验,结果表明网络预测变形主成分的方法优于此前的最近邻预测方法。
3.5.2.2 网络回归稠密扭曲场
Guan等人(2022)认为,之前的扭曲矫正方法(Si等,2015;Gu等,2018;Dabouei 等,2018b)均基于扭曲场的主成分表示,有限的主成分模板只能粗略估计变形模式,这并不准确,而且对手指姿态非常敏感,难以有效处理多角度、复杂扭曲的指纹。
作者提出了一种利用基于自参考信息的深度学习网络,直接估计扭曲指纹的稠密扭曲场,并加以矫正。该方案使用了端到端的深度学习网络,不要求指纹姿态的绝对正确,因此对多姿态指纹鲁棒,另一方面,使用了稠密估计而非现有的基于主成分分析的低维表示,对扭曲的表达能力更强,估计的扭曲细节上更准确。网络通过多尺度空洞卷积和包含上下文信息的通道注意力模块加强网络对邻域信息的参考能力,并优化了变形场真值的表述方式,以确保真值去除刚性变换分量,只保留弹性扭曲部分。
作者收集了480个指纹扭曲视频,包括许多不同姿势和不同扭曲类型的指纹。在该数据库和公开扭曲指纹数据库TDF上进行了实验,以测量变形估计精度、匹配性能、模型复杂度和推理效率。实验结果表明该方法优于已有的基于主成分分析的指纹扭曲矫正算法。
3.5.2 透视变形矫正
非接触式指纹已经成为一种便捷、廉价、卫生的获取指纹样本的方法。然而,由于接触式/非接触式指纹之间存在弹性和视角扭曲,将非接触式指纹与传统的接触式指纹进行交叉匹配是一项具有挑战性的任务。
Dabouei等人(2019)提出了非接触指纹透视变形矫正方案,通过结合脊线校正和脊线增强网络来减少透视变形引入的扭曲,并消除了对估计的扭曲参数真值的需求。 该方法流程如下图所示。对于一张输入的非接触指纹,通过一个简单的全卷积网络估计其网格采样点的位移向量,并通过TPS进行矫正,随后使用U-Net模型得到扭曲矫正后的非接触指纹二值脊线图。在训练阶段,根据预测扭曲的变化幅度生成扭曲评估分数图S,以S作为权重,计算扭曲矫正并增强后的非接触指纹y和事先对齐好的无扭曲的接触指纹y*之间的交叉熵。实验表明,与原始采样图像相比,该模型能够从非接触指纹中恢复更丰富的细节,从而大幅度提升接触/非接触指纹间的匹配性能。
4、指纹合成
在深度学习时代,大规模训练数据对于模型的性能非常关键。但是,采集大规模的指纹库成本很高,而且涉及到隐私问题。相比人脸识别领域,指纹识别领域的公开指纹库的规模太小。目前公开的指纹库规模最大的是NIST SD14(几年前被NIST下架了),也不过2.7万个不同手指(每个手指仅仅2幅图像)。因此,指纹图像合成技术非常有价值。
Cappelli等人提出的SFinGe是非常经典的指纹合成技术(Cappelli等,2000;Cappelli,2022)。作者精心设计了一整套指纹合成技术,首先合成主指纹(master指纹),然后合成该指纹的各种按捺图像。作者考虑了各方面因素,包括指纹各特征的数学模型,特征的类间变化,以及实际图像中的类内变化。但是无论作者的经验无论多么丰富,概括多么高明,总是难以准确建模真实样本中的规律。
近年来,研究者提出了几种基于生成对抗网络(GAN)的指纹合成技术。
4.1 PrintsGAN
Engelsma等人(2023)提出的PrintsGAN指纹合成方法分两个阶段运作。在第一阶段,生成主指纹(250 ppi的二值指纹图像)。之后,将主指纹传递给非线性变形和裁剪模块,模拟手指以不同角度和力度按在指纹采集器上的效果。最后,变形和裁剪的主指纹被传递到合成过程的第二阶段,以500 ppi分辨率渲染出逼真的纹理细节。通过输入不同的身份噪声、变形噪声和纹理噪声,PrintsGAN能够生成大量不同主指纹及其不同图像。通过这种方式,PrintsGAN对大型指纹数据库的类间和类内方差进行建模,进而合成出大量真实的指纹数据,用于训练深度网络以提取适合匹配的定长表示。
作者合成了包含52.5万指纹图像的数据库(3.5万个不同手指,每个手指有15幅图像)。然后对比了两种训练DeepPrint定长特征提取网络的方法,(1)利用合成指纹预训练,并在较小规模的真实指纹库上(来自NIST SD302的2.5万幅图像)进行微调;(2)仅利用真实指纹库训练。第一种方法得到的DeepPrint在NIST SD4数据库上的匹配性能为TAR=87.03% @ FAR=0.01%;而第二种方法仅能达到TAR=73.37%。但是,作者没有报告直接用训练PrintsGAN的真实数据训练DeepPrint的性能。
5、伪指纹检测
伴随指纹识别技术的普及,利用伪指纹欺骗指纹识别系统的案例逐渐变多。有多种材料可以制造伪指纹,能骗过许多类型的指纹识别传感器和系统。近年来,伪指纹检测(也叫活体指纹检测、呈现攻击检测)成为指纹领域的一个热点研究方向。其中,基于软件的检测方法受到了许多关注,因为其不需要额外的硬件,并且可以通过更新软件提升能力。
Chugh等人(2018)认为,在伪指纹制作的过程中,通常会存在脊线缺失、开裂、气泡等瑕疵,从而引入虚假的细节点。这些虚假细节点的周边区域可以提供用来辨别真伪指纹的显著特征。作者进而提出了一种对以细节点为中心的指纹块进行二分类的方法。首先使用细节点提取算法提取细节点的位置和方向,然后根据细节点位置和方向截取指纹块并旋转到统一姿态。将对齐的指纹块输入Mobilenet-v1进行二分类并输出伪指纹分数。最后将所有指纹块的伪指纹分数融合为完整指纹的伪指纹分数。该方法在不同公开数据集中均优于其他已有方法。
使用不同方法、材料制作的伪指纹及不同指纹传感器采集的真实指纹往往在图像风格上存在差异。基于深度学习的伪指纹检测网络的性能往往依赖于训练过程中使用的真伪指纹风格。伪指纹检测网络对于在训练集中未出现的新材料的识别率较低。为了解决这一问题,Chugh和Jain(2021)提出一种指纹风格迁移模块(通用材料生成器)来对指纹数据进行增广,提升伪指纹检测网络的泛化性能。如下图所示,训练风格迁移模块时,首先将两个已知材料伪指纹输入编码-风格迁移-解码网络,生成新的伪指纹。然后使用相同的编码器计算内容损失和风格损失,并使用与DC-GAN相似的判别器计算对抗损失。之后将随机选择的两个已知材料伪指纹输入训练好的风格迁移模块合成新的伪指纹。与此同时,使用真实指纹训练的风格迁移模块被用来合成新的真实指纹。使用增广后的指纹训练的伪指纹检测网络性能在各公开数据库中均有不同程度的提升。
参考文献
- Cao, K., & Jain, A. K. (2015). Latent orientation field estimation via convolutional neural network. In 2015 International Conference on Biometrics (ICB) (pp. 349-356). IEEE.
- Cao, K., & Jain, A. K. (2019). Automated latent fingerprint recognition. IEEE transactions on pattern analysis and machine intelligence, 41(4), 788-800.
- Cappelli, R. (2022). Fingerprint Synthesis. In Handbook of Fingerprint Recognition (pp. 385-426). Springer, Cham.
- Cappelli, R., Erol, A., Maio, D., & Maltoni, D. (2000). Synthetic fingerprint-image generation. In Proceedings 15th International Conference on Pattern Recognition. ICPR-2000 (Vol. 3, pp. 471-474).
- Chugh, T., Cao, K., & Jain, A. K. (2018). Fingerprint spoof buster: Use of minutiae-centered patches. IEEE Transactions on Information Forensics and Security, 13(9), 2190–2202.
- Chugh, T., & Jain, A. K. (2021). Fingerprint spoof detector generalization. IEEE Transactions on Information Forensics and Security, 16(1), 42–55.
- Cui, Z., Feng, J., Li, S., Lu, J., & Zhou, J. (2018). 2-D phase demodulation for deformable fingerprint registration. IEEE Transactions on Information Forensics and Security, 13(12), 3153-3165.
- Cui, Z., Feng, J., & Zhou, J. (2021). Dense registration and mosaicking of fingerprints by training an end-to-end network. IEEE Transactions on Information Forensics and Security, 16, 627-642.
- Cui, Z., Feng, J., & Zhou, J. (2023). Monocular 3D Fingerprint Reconstruction and Unwarping. IEEE transactions on pattern analysis and machine intelligence.
- Dabouei, A., Kazemi, H., Iranmanesh, S. M., Dawson, J., & Nasrabadi, N. M. (2018a). ID preserving generative adversarial network for partial latent fingerprint reconstruction. In 2018 IEEE 9th International Conference on Biometrics Theory, Applications and Systems (BTAS) (pp. 1-10).
- Dabouei, A., Kazemi, H., Iranmanesh, S. M., Dawson, J., & Nasrabadi, N. M. (2018b). Fingerprint distortion rectification using deep convolutional neural networks. In 2018 International Conference on Biometrics (ICB).
- Dabouei, A., Soleymani, S., Dawson, J., & Nasrabadi, N. M. (2019). Deep contactless fingerprint unwarping. In 2019 International Conference on Biometrics (ICB) (pp. 1-8).
- Duan, Y., Feng, J., Lu, J., & Zhou, J. (2021). Orientation Field Estimation for Latent Fingerprints with Prior Knowledge of Fingerprint Pattern. In 2021 IEEE International Joint Conference on Biometrics (IJCB) (pp. 1-8).
- Duan, Y., Feng, J., Lu, J., & Zhou, J. (2023). Estimating Fingerprint Pose via Dense Voting. IEEE Transactions on Information Forensics and Security.
- Engelsma, J. J., Cao, K., & Jain, A. K. (2021). Learning a fixed-length fingerprint representation. IEEE transactions on pattern analysis and machine intelligence, 43(6), 1981-1997.
- Engelsma, J. J., Grosz, S. A., & Jain, A. K. (2023). PrintsGAN: synthetic fingerprint generator. IEEE transactions on pattern analysis and machine intelligence.
- Feng, J., & Jain, A. K. (2011). Fingerprint reconstruction: from minutiae to phase. IEEE transactions on pattern analysis and machine intelligence, 33(2), 209-223.
- Feng, J., Zhou, J., & Jain, A. K. (2013). Orientation field estimation for latent fingerprint enhancement. IEEE transactions on pattern analysis and machine intelligence, 35(4), 925-940.
- Gu, S., Feng, J., Lu, J., & Zhou, J. (2018). Efficient rectification of distorted fingerprints. IEEE Transactions on Information Forensics and Security, 13(1), 156-169.
- Gu, S., Feng, J., Lu, J., & Zhou, J. (2021). Latent fingerprint registration via matching densely sampled points. IEEE Transactions on Information Forensics and Security, vol. 16, pp. 1231-1244.
- Gu, S., Feng, J., Lu, J., & Zhou, J. (2022). Latent Fingerprint Indexing: Robust Representation and Adaptive Candidate List. IEEE Transactions on Information Forensics and Security, 17, 908-923.
- Guan, X., Duan, Y., Feng, J., & Zhou, J. (2022). Direct Regression of Distortion Field from a Single Fingerprint Image. In 2022 IEEE International Joint Conference on Biometrics (IJCB).
- Guan, X., Feng, J., & Zhou, J. (2024). Phase-aggregated Dual-branch Network for Efficient Fingerprint Dense Registration. IEEE Transactions on Information Forensics and Security.
- He, Z., Zhang, J., Pang, L., & Liu, E. (2022). PFVNet: A Partial Fingerprint Verification Network Learned From Large Fingerprint Matching. IEEE Transactions on Information Forensics and Security, 17, 3706-3719.
- Jain, A. K., Prabhakar, S., Hong, L., & Pankanti, S. (2000). Filterbank-based fingerprint matching. IEEE transactions on Image Processing, 9(5), 846-859.
- Kumar, A. (2018). Contactless 3D fingerprint identification. Springer.
- Lin, C., & Kumar, A. (2019). A CNN-based framework for comparison of contactless to contactbased fingerprints. IEEE Transactions on Information Forensics and Security, 14(3), 662–676.
- Ouyang, J., Feng, J., Lu, J., Guo, Z., & Zhou, J. (2017). Fingerprint pose estimation based on faster R-CNN. In 2017 IEEE International Joint Conference on Biometrics (IJCB) (pp. 268-276).
- Pan, Z., Duan, Y., Guan, X., Feng, J., & Zhou, J. (2024a). Latent Fingerprint Matching via Dense Minutia Descriptor. in 2024 IEEE International Joint Conference on Biometrics (IJCB).
- Pan, Z., Duan, Y., Feng, J., & Zhou, J. (2024b). Fixed-length Dense Descriptor for Efffcient Fingerprint Matching. in 2024 IEEE International Workshop on Information Forensics and Security (WIFS).
- Si, X., Feng, J., Zhou, J., & Luo, Y. (2015). Detection and rectification of distorted fingerprints. IEEE transactions on pattern analysis and machine intelligence, 37(3), 555-568.
- Si, X., Feng, J., Yuan, B., & Zhou, J. (2017). Dense registration of fingerprints. Pattern Recognition, 63, 87-101.
- Su, Y., Feng, J., & Zhou, J. (2016). Fingerprint indexing with pose constraint. Pattern Recognition, 54, 1-13.
- Tang, Y., Gao, F., Feng, J., & Liu, Y. (2017). FingerNet: An unified deep network for fingerprint minutiae extraction. In 2017 IEEE International Joint Conference on Biometrics (IJCB) (pp. 108-116).
- Yang, X., Feng, J., & Zhou, J. (2014). Localized dictionaries based orientation field estimation for latent fingerprints. IEEE transactions on pattern analysis and machine intelligence, 36(5), 955-969.
- Yin, Q., Feng, J., Lu, J., & Zhou, J. (2021). Joint estimation of pose and singular points of fingerprints. IEEE Transactions on Information Forensics and Security, 16, 1467-1479.