【论文阅读】Random Distance Method for Generating Unimodaland Multimodal Cancelable Biometric Features

1. 介绍

可取消生物特征识别使用某种变换函数和用户特定的密钥/辅助数据来生成伪生物特征标识,作为原始生物特征标识的受保护版本[1]。它通过在转换后的域中执行存储和匹配来为生物特征识别提供高级别的隐私、安全性和可撤销。本文提出了一种新的模板变换技术--随机距离法,该方法不仅可以生成不可逆的、可撤销的、多样化的伪恒等式,而且可以将伪恒等项的大小减少50%。该方法将生物特征映射为笛卡尔空间上的点,并根据用户特定的密钥/令牌计算其与某些随机点的距离。该方法针对人脸、掌纹、掌纹和手指等多种形态生成的单峰和多峰变换模板进行了测试。

2. 可撤销的生物特征

Biometric salting

生物盐化通过将模板与辅助数据混合来扭曲模板,这之后通常会进行一些额外的操作以实现不可逆性。

1)Random Projection (RP) Based Transformations

2)Random Convolution Based Transformations

3)Random Noise Based Transformations

Non-Invertible Transformations

不可逆变换通过将生物测定数据映射到新的随机子空间来修改生物测定数据,使得逆映射是不可能的。

Multibiometric Cancelable Schemes

3. BIOMETRIC SALTING USING RANDOM DISTANCES

A. Random Distance Method (RDM)

设特征向量fv表示为笛卡尔坐标系中的一点。为了匹配的目的,建议使用fv到某个随机点的距离。该概念如图1所示。设特征向量被等分成两半,使得属于前半部分的第j个特征映射为横坐标,而后半部分中第j个位置处的对应特征映射为纵坐标,以定义笛卡尔空间中的点为(x,y)∈f v。Let(x1,y1),(x2,y2),和(x3,y3)是属于三个不同特征向量fv1,fv2,和 fv3的这样的点表示;以及(x0,y0)是从用户特定密钥导出的随机点。

假设将相同的密钥分配给每个用户(最坏情况),使用特征点和随机点之间的欧几里德距离d1、d2、d3作为变换后的特征。如果特征向量fv1和fv2属于同一用户,则它们的值的差异将很小,即||x1−x2||<δ和||y1−y2||<δ,则可以表示d2−d1∝δ。

证明如下:

 如果f v1、f v3属于不同的用户,则它们的值之间的差异会很大,即||x3−x1||<\Delta和||y3−y1||<\Delta,使得\Delta>δ。类似地,(d3−d1)∝\Delta对于相同的常量κ。因此,使用RDM来维护用户间和用户内的变化。

B. Feature Extraction Using Log-Gabor Filters: 

 f0是滤波器的中心频率,设滤波尺度数为n,则中心频率f0可计算为f0=1/minWave×mult^{n}。这里,频域在4个尺度(n=1…4)和每个尺度的6个方向(m=1…6)上进行分解,从而产生24个滤波器的滤波器组,并且参数被设置为σr=0.55、σθ=1.5、mult=3和MinWave=3。

设I为M×N生物特征图像,对其进行去噪和感兴趣区域提取。通过将图像的快速傅里叶变换(FFT)与n个尺度和m个方向上的滤波响应相乘来计算多个分辨率下的响应。然后,通过计算相乘结果的逆FFT来获得滤波图像。对于每个尺度和方向,所获得的幅度图案被重塑和连接,以产生1D矢量fv,即,要被变换的原始特征矢量。向量fv∈\Re ^{N{}'},此时N{}'=24×M×N是特征的总数。

C. Template Transformation With RDM

最初,由于其低动态范围,原始特征向量fv被乘以大的常量,例如c=100。

为了增加模板的熵,通过用随机网格RG对其进行OR运算来对fv进行盐化,如fs=fv+RG。随机网格RG是用户特定的,并且具有与fv相同的维度。RG是通过在期望范围(例如,[1到255])中以相等概率分配随机积分值来生成的。

现在,盐化向量被分成两个相等的部分fX=fS(1:N/2)和fY=fS(N/2+1:N)。对于j=1..N/2,将特征点F Pj定义为(xj=f X(J),yj=f Y(J))。生成具有在范围[−100,100]中随机分布的非整数值的维度为1×N的用户特定密钥K。密钥K也被分成两个相等的部分K0和K1,以定义随机点RPj的映射,(xj=k0(J),yj=k1(J))。对于从原始特征向量fv获得的1≤j≤N/2,计算特征点F pj和随机点Rpj之间的距离dj并将其存储为新的特征集合D={dj}。该过程如图2所示。随机距离的计算是线性运算。为了提供不可逆性,对距离向量D进行中值滤波以生成变换后的特征向量Tf,其中强度值在p×1邻域内被置乱。将T_f存储为最终转换的模板。变换密钥RG和K以令牌化格式提供给用户。该方法还将特征维度降低了50%。可以通过更改转换键来生成新的转换模板。

为了生成多模式可消除模板,使用两个模式(fS1和fS2)的加盐特征来形成特征点的横坐标和纵坐标,即fX=fS1和fY=fS2。维度为1×2N的用户特定密钥K。图2。使用RDM进行模板转换。

被生成并被分成两个相等的部分以形成用于指定随机点的密钥K0和K1。最后,计算特征点和随机点之间的距离,并使用中值滤波对其进行置乱,形成变换后的模板。在每次身份验证时,使用相同的向量来转换用户的生物特征。

4. 相关问题及图解

A. Ambiguous Cases

RDM概念认为,具有不同随机点的特征点之间的距离是不同的,因此可以用于生成可撤销特征。然而,这可能会导致某些模糊条件,其中不同用户的特征点和随机点之间的距离可能趋于相同。考虑最坏的情况(图3(A)),其中相同的随机点RPj被分配给所有用户。存在随机点(RPj)和属于两个不同用户的特征点(FP1j和FP2j)之间的距离d1和d2可能趋于相同的可能性。当为每个用户分配不同的随机点时,在最佳情况下(图3(B))可能会出现类似的歧义。这里,距离d1和d2也可能趋于相同。但是,对于某些j∈[1,N/2]来说,这是单点的情况。如果将来自两个不同特征的变换后的模板相同,则这种情况必须对超过60%-75%的点成立。实验所用的图像样本大小为128×128,经过LOG-Gabor滤波后,级联特征的大小N变为24×128×128=393216。因此,60%的N/2约占117965,这对于来自两个不同用户特征的距离相同来说是一个很大的数字。

通过改变密钥K以在最坏和最好的情况下生成多个转换模板,实验验证了所提出的方法是否会出现这种歧义。

 B.原始域和变换域中的点集分布

对于一个好的方案,变换后的特征必须保留类内用户和类间用户的差异。RDM将特征视为笛卡尔空间中的点,对于CASIA人脸数据库中属于相同和不同类的生物特征样本,绘制使用相同变换参数RG和K(最差情况)生成的原始模板和变换模板的点集分布,以可视化从原始到变换域的映射,并如图4和图5所示。对于每个图像,以n=1尺度和m=1方向获得的前100个log-Gabor特征被映射为点。图4(e)描绘了使用相同密钥K从同一对象的两个样本图像I1和I2获得的变换特征Tf的位置与强度曲线。图5(e)描绘了通过类似方式为从两个不同对象获得的变换特征绘制的曲线图。

随着熵的增加,可以观察到变换域中的用户内和用户间变化的保存。

5. 实验结果和分析 

A. Performance Evaluation 

由于所提出的方法必须在变换后保留可辨别的信息内容,因此预期变换后的域中的匹配性能不会比原始域有所下降。匹配实验还使用了两种最重要的特征变换技术,即具有向量平移的2D BioHash[5]和具有自适应阈值的2D BioPhasor[38],因为这些技术与基于Gabor的过滤器兼容。此外,这些方法的适用性可以推广到各种模式。对其两个变体BH和BH-50实现了BioHash,从而使变换后的特征的随机投影维度的平均值在BH-50中降低了50%。对于BioPhasor,没有降维的规定。对于相同的原始特征,使用这些技术生成变换后的模板,以便可以在相同的尺度上比较这些方法和所提出的RDM方法的失真影响。

1) Evaluation Methods:

该系统针对k重交叉验证进行了调整。对于每一次折叠,实验重复10次,每次使用不同的用户特定随机数据值。每个数据库的k值如表一所示。

然后,使用核判别分析(KDA)和余弦距离进行分类和匹配。KDA使用基于多项式的核函数,它定义了一种非线性映射,使得特征可以是可分离的,并且可以提取最重要的区分信息[39]。

错误接受率(FAR)和错误拒绝率(FRR)是匹配过程的基本性能指标[40]。

这些都是密切相关的,并由系统阈值定义。

FAR和FRR是根据真实和假冒人口分布的得分计算的。等误码率(EER)被定义为FAR和FRR相等的点。EER越低,系统性能越好。另一个参数可判断性指数(DI)衡量正品和冒牌货分布的可分性[40]、[41]。较高的DI表明真品和冒名顶替者之间的可分性更好,从而导致较低的错误接受率和拒绝率。

给定正版和冒名顶替者的分数分布,DI是使用正版(μg,σg)和冒名顶替者(μi,σg)的分数的平均值和标准差来计算的:

DI=\frac{\left | \mu _{g}-\mu _{i} \right |}{\sqrt{\frac{\left ( \sigma _{g}^{2}+\sigma _{i}^{2} \right )}{2}}}

对于验证模式,性能以EER和DI报告,由接收器工作特性(ROC)曲线支持。等级r的识别率表示在系统中注册的用户的识别事务的比例,对于该识别事务,用户的真实识别符被包括在返回的候选列表中。对于识别模式,性能以识别指数(RI)为等级1的识别率来报告,并由累积匹配特征(CMC)曲线支持。

2) Evaluation Scenarios:

用于实验的模板大小调整为128×128像素。中值滤波的邻域是在每个实验的[3,7]之间随机选择的。对于最坏情况和最好情况,生成变换后的模板来分析可区分性。

3) Worst-Case Scenario:

为了评估距离保持特性,通过分配相同的关键变量来生成变换的模板,即在最坏情况下(密钥被盗的情况)下的RG和K。由于使用相同的随机点来计算所有生物特征样本之间的距离,因此该场景下的性能有助于探索RDM的可区分性保持特性。

表II、表III和表IV分别报告了原始和转换后的单峰模板在95%的显著水平上的EER、RI和DI方面的匹配性能。在最坏情况下,该方法得到的匹配结果略少,但与使用原始模板得到的结果相当。

所获得的DI值表明,使用RDM生成的变换模板在一定程度上保持了可区分性,即在变换的域中可以很容易地区分真正的和冒名顶替者群体。结果表明,RDM方法(降维50%)的验证性能(E、E、R和DI)大多优于BH(无降维),高于BH-50(降维50%)。

在识别场景中,观察到RDM 的性能(RI)与BH相当,而优于BH-50。与BioPhasor方法相比,该方法在验证和识别方面都有更好的性能。

表V报告了从各种生物测定模式的组合中生成的多模式模板转换的性能。随着EER的减小,以及较高的DI和RI,结果表明性能提高。因此,所提出的RDM方法被发现对于生成单峰和多峰可取消模板是有用的。支持这些结果的ROC和CMC曲线如图6-8所示。

4) Best-Case Scenario: 

在最好的情况下,为数据库中的每个用户分配不同的关键变量。实验发现,不同用户和随机点之间计算的随机距离显著增加了用户之间的差异,因为在最好的情况下,所有通道的EER值都很低(<0.1E−10),而DI(>18)和RI(>99.99)值都很高。表IV和表V分别给出了使用所提出的RDM方法的单峰和多峰变换模板的DI值。高DI值支持真实和冒名顶替者群体之间的明显分离,验证了在这种情况下获得的低错误率。因此,在最好的情况下,使用所提出的RDM方法生成的单峰以及多峰转换模板的性能优于原始模板。

B. Unlinkability Analysis

通过使用不同的用户特定参数来生成对应于生物测定数据库的六个转换数据库。

在这六个数据库中计算配对样本得分分布(属于使用不同密钥转换的相同主题的样本)以及非配对样本得分分布(属于使用不同密钥转换的不同主题的样本)。这些分数分布被用于计算局部度量D↔(S),该局部度量被进一步用于计算系统Dsys↔的整体链接性。图9使用CASIA-Face V5,CASIA掌纹,SDUMLA生成变换模板时的去链接性曲线。由于有很大的重叠,这些数据库的系统总体可连接性几乎为零。其他数据库也观察到了类似的结果。根据这一讨论,可以认为拟议的系统是不可链接的。

C. Non-Invertibility Analysis

即使攻击者同时知道用户特定数据RG和密钥K,变换后的模板Tf也应该是不可逆的。为了评价变换后模板的不可逆性,分析了中值滤波对随机距离的影响。考虑示出原始特征模板fv和随机密钥K的图10(A)和(B)。为了更好地可视化,取面部图像而不是特征向量。跳过加盐操作,计算原始特征fv和关键字K之间的随机距离D,并在图10(C)中可视化。最后,对D进行小邻域(p=5)中值滤波,得到变换后的模板Tf,如图10(D)所示。为了检查RDM的不可逆性,如这里所讨论的,对随机距离特征D以及从D获得的存储的参考模板Tf模拟逆运算。

情况(I)(D和K已知):原始特征点FP和随机点RP之间的随机距离矩阵D是已知的。攻击者还知道随机点RP(使用密钥K获得)。现在,攻击者可以将点的轨迹确定为与RP的恒定距离D。然后在不同的位置对圆的轨迹进行插补,以确定特征点FP。为了模拟反攻击,得到了连接特征点FP(xp,yp)和随机点Rp(x0,y0)的直线l的斜率m和截距c。当特征点位于直线l:y=mx+c且随机距离已知时,可以建立以下两个方程:

 其中d∈D是两点之间的距离。求解上述两个方程即可确定x,p,yp。在二次性质下,存在两个根,一个是原始特征值,另一个是距离Rp相同距离d处与F p相反的点。图10(e)和(f)显示了两个恢复的值。从图10(e)可以观察到,恢复了原始特征。

情况(II)(Tf和K已知):当对随机距离应用中值滤波时,攻击者知道Tf。

假设直线连接点的斜率(m)和截距(c)已知,则应用逆运算,并再次求解公式1和2以获得xp,yp。在这种情况下得到的解,如图10(g)和(h)所示,是有噪声的,并且没有显示出原始特征。这是因为中值滤波会迭代地重新洗牌其邻域中的原始距离,即使变换后的模板被破坏,也不会显示确切的距离。这证明了使用随机距离上的中值滤波来生成变换后的模板的不可逆性。

D. Dictionary Attack

在字典攻击中,攻击者通过使用泄露的变换模板、密钥和变换函数将原始空间中的每个可能的点映射到变换后的点[42]。

这组映射点(称为字典)用于在原始域中构建预映像。因为变换后的模板(Tf)是距离值,所以这里要为所有可能的特征点(x,y)定义到距离值的映射,这在另一组随机点(由变换关键字定义)已知时产生。该词典由原始笛卡尔空间中所有可能的(x,y)的条目((x,y),P,Tf=RDM((x,y),P))组成,其中P是变换参数集,RDM是所提出的变换函数。该组参数P由整个变换过程中的乘法常数c、盐化值RG、随机关键点K和中值滤波邻域p组成。这样,整个变换((x,y)→Tf)由四个中间映射函数f1…f4。因此,攻击者必须构建所有可能的对((x,y),f1((x,y),c),f2(f1,RG),f3(f2,K),f4(f3,p))。此外,攻击者必须具有原始特征的大致强度范围才能执行此过程,该范围可能会因通道、对象和特征提取技术而异。即使人们对该强度范围有一些了解,并且他能够建立前三个函数,但是最后的变换,即中值滤波,使整个努力白费,因为它迭代地将第i个位置处的变换值与其p邻域中的中值混洗。

以上讨论是通过一个例子来说明的。设原始特征f v∈[0,10],定义为f v=[7.5,6.5,5.0,5.5,3.0,7.5,2.0,7.0,2.0,4.0,3.5,4.0,0.5,5.0,4.0,2.5,2.5,2.5,2.0,3.0]。为了简化说明,c被认为是1,并且跳过使用RG的盐化操作。

这给出了f X=[7.5,6.5,5.0,5.5,3.0,7.5,2.0,7.0,2.0,4.0]和f Y=[3.5,4.0,0.5,5.0,4.0,2.5,2.5,2.5,2.0,3.0]以形成特征点。设K0,K1∈[-10,10],这些随机点定义为K0=[0,6.5,6,3,−2.5,6.5,0.5,−3,9,7.5]和K1=[1,2.5,2,−6,−4,−0.5,−5.5,7,−6.5,−5.5]。距离向量D=[7.91,1.50,1.80,11.28,9.71,3.16,8.14,10.97,11.01,9.20]。D上p=5邻域的中值滤波得到Tf=[1.50,1.80,7.91,3.16,8.14,9.71,9.71,9.20,9.20,9.20]。可以观察到,不仅值被混洗,而且一些值被重复。现在让攻击者知道Tf和参数K、c=1和p=5,以及原始特征[0,10]的强度范围。然后,字典建立过程如图11所示。

最初,攻击者建立[0,10]中所有可能的特征点的映射,比方说以0.5的步长间隔(图11(A))产生具有400个条目的字典字典。然后,使用Key(K0,K1)的知识,定义特征点与随机点的所有可能的组合(图11(B)),产生4000个条目,从这些条目中确定所有可能的距离(图11(C))。

最后,使用Tf、K0、K1和这些映射,建立一一对应关系来确定原始特征。在图11(d)中可以看到,对于由Tf(3)定义的距离,可以有来自不同键组合的多于一个的前像映射。因此,对于每个距离值,需要各种尝试来映射预像。然而,该过程将不是有效的,因为值对应于Tf的正确强度位置是未知的。即使p已知,攻击者也不能确定Tf(3)是由D(1)产生的。此外,Tf在许多强度位置被重写,从这些位置不能知道正确的D值。因此,仅确定强度贴图是不够的,因为原始前图像在很大程度上依赖于强度值的位置。在该示例中,Tf仅包括10个条目,但Tf的实际大小很大,即(24×128×128)/2=196608。使用盐渍操作将进一步导致词典大小的显著增加。当对如此大的值集进行洗牌时,为前映像攻击建立词典似乎是不可行的。

E. Attacks via Record Multiplicity

在通过记录多重性(ARM)进行的攻击中,攻击者可以访问从同一实例获得的多个转换模板副本,并试图将它们链接起来为了构建一个可能的原始模板的前映像。

设Tf1和Tf2是从相同生物测定实例生成的两个变换模板,但是通过使用不同的参数,分别假设P1=(c1,rg1,k1,p1)和P2=(c2,rg2,k2,p2)。实验已经表明,这些模板是不可链接的。此外,Tf1的第i个位置取决于距离向量d1及其混洗邻域p1。它不能链接到Tf2的第i个位置,因为它依赖于其距离向量D2和洗牌邻域P2的序列。这些距离向量的强度会因盐化参数和随机点的变化而变化。此外,根据所给出的关于不可链接性、不可逆性和字典攻击的讨论,通过知道Tf1和/或Tf2来恢复d1和/或d2是不可行的。因此,转换后的模板的多个副本似乎对对手执行ARM没有用处。

F. False Accept Attack

它也是一种字典攻击,攻击者对变换算法和参数有适当的了解,可以使用一些公开可用的基准数据库来伪装系统。这里,攻击者使用已知参数对公共数据库的生物测定样本进行转换算法,以生成广泛的转换模板集。然后将这些伪变换模板输入到系统以获得非法访问。

攻击被模拟如下。最初,为第一数据库生成原始转换后的模板,例如具有K个用户的DB1,从而为每个用户分配不同的一组参数。此外,使用第二数据库生成一组伪变换的模板,DB2具有‘P’个用户,使得对于每个用户,使用用于第一数据库的所有‘K’个不同的参数来生成变换的模板。

将DB1的训练样本与DB2的伪变换模板交叉匹配,以确定系统的错误接受率。表VI报告了交叉匹配的结果。非常接近于零,表明对虚假接受攻击的拟议方法的抵抗。

 G. Brute Force Attack

在这里,攻击者没有关于原始模板或转换密钥的任何信息。他尝试了所有可能的排列和组合,以生成转换后的模板并进行了成功的尝试。对于128×128的图像,变换后的模板大小为1,96,608,它由距离值∈[0,∞]组成,其范围取决于变换参数。对于本工作中定义的参数,转换后的模板以最大值2000(见图5)为界。这相当于1966082000量级的蛮力努力,这是非常高的。

6. 总结

该方法简单,易于实现。对使用RDM生成的变换模板进行了实验验证,并与原始变换技术和其他变换技术进行了比较。在降维50%的情况下,发现即使在最坏的情况下,单峰变换模板也能提供良好的匹配性能。还发现多模式变换模板对于生物测定模式的不同组合具有良好的匹配性能。其他重要要求,如可撤销、不可链接和不可逆性也得到了满足。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值