【论文阅读】Generation of Cancelable Iris Templates via Randomized Bit Sampling

1. 介绍

在所有主要生物特征中,IRIS被广泛认为是最可靠的身份验证形式之一。这种高可靠性的主要原因是虹膜纹理的高度复杂性,这使得基于虹膜的模型对错误匹配具有弹性[1]。此外,虹膜在人的一生中几乎保持不变,不受遗传或环境因素的影响。从捕获的虹膜图像获得的特征通常表示为二进制位串,称为IrisCode。从相应的虹膜图像中提取虹膜编码的传统技术最初是由约翰·道格曼提出的,其中2DGabor小波参数化族被用作过滤器[1]。之所以特别选择Gabor小波,是因为它们在空间和频率域上都优化了信息分辨率。从信息论的观点来看,IrisCode的唯一性可以归因于它的特征大熵[3]。因此,这种所需的特性便于出于验证和识别目的使用基于虹膜的模型。

任何生物识别系统的核心都由一个中央数据库组成,该数据库存储了成功注册的个人的提取的生物识别信息。从安全角度来看,存在几种敌对形式的攻击,其目标是危害存储的数据。这些攻击的一些典型实例包括侵犯隐私、伪装攻击、重放攻击和身份盗窃[4]。由于虹膜编码中包含大量的歧视性信息,这些攻击对基于虹膜的模型的有效性提高了数倍。为了有效对抗涉及生物识别框架的各种安全威胁,启动了生物识别模板保护(BTP)领域的研究。在抽象层面上,通用BTP方案通过存储某种形式的变换数据而不是原始生物测定信号来提供所需的安全和隐私保证。在这方面值得注意的是,由于生物测定数据中存在特有的类内可变性,所以标准加密技术不能直接适用于该场景。各种BTP方案及其应用领域的全面调查汇编在[4]、[5]中。

本工作涉及一种特殊类型的BTP模型,即可取消生物特征识别。这些方法通过使用特定的变换函数来扭曲原始生物特征数据,从而在该过程中生成一些受保护的模板。这些转换应仔细执行,以使受保护的模板既不能轻易地转换为其原始格式,也不会使整体识别性能显著下降。在这些类型的方案中,两个编码模板之间的比较发生在变换域中而不是基域中。重要的是,一个有效的可撤销生物特征识别方案应该满足以下四个标准[4]-[6]:

1)不可连接性--不可能区分来自同一生物特征样本的两个或多个受保护模板。此属性是防止涉及多个生物特征数据库的基于交叉匹配的攻击所必需的。

2)不可逆性--对手从相应的受保护模板中获取原始生物特征数据在计算上应该是低效的。或者,这种保证转化为所利用的变换函数应该是单向的要求。

3)可撤销性-如果存储的模板以任何形式遭到破坏,应该可以生成新的(和不同的)受保护模板。可重启性防止对手从多个受保护的模板中重建原始虹膜特征。

4)性能--底层生物识别框架的性能不应相对于基准模型降级。由于大多数变换函数的非线性性质,实现令人满意的系统性能是一项相对困难的任务。

A. 贡献

本文基于局部敏感散列(LSH)的概念,设计了一种可取消的虹膜模板模型。LSH技术以这样一种方式对输入项进行散列,以便相似的项高概率地映射到相同的位置(桶)。在本研究中,我们通过将类内IrisCode样本散列到同一桶中来生成可取消的IrisCode模板。或者,属于不同类的IrisCodes由于其相对不同而散列到不同的存储桶中。我们的工作采用了一种基于随机位采样的技术来从IrisCode生成本地散列。我们将这一特征称为对应于IrisCode的局部性采样码(LSC)。作为LSH类的一个特殊实例,LSC散列技术得益于在变换后的域中保持性能的强大理论保证。通过在其创建期间采用模阈值函数,进一步使LSC模板不可逆。如果存储的模板以任何形式受到危害,可以通过对相同的IrisCode样本使用不同的散列函数集来生成新的可撤销LSC。重要的是,我们提出的模型利用IrisCode的隐式排序来生成受保护的模板(而不是单个比特信息),从而降低了相关攻击的风险。

2. 相关工作

Cancelable iris schemes可以被分为salting 和 non-invertible transforms

A. Salting Based Approaches

Zuo等人提出了GREY-SALT和BIN-SALT两种盐化工艺。[10]其适用于实值或二进制虹膜数据。GREY-SALT方案包括将人工种子模式添加或乘以到IrisCodes,而BIN-SALT技术基本上围绕随机二进制密钥和特征IrisCodes之间的XOR运算。然而,如果不使用预对准机制,则这些方案的性能会显著降低。

B. Non-Invertible Approaches

使用这一范式的最早的著作之一是Zuo等人的著作。[10]其中提出了GREY -COMBO和BIN-COMBO两种不可逆变换。在GREY -COMBO中,虹膜图像通过随机键按行移动,然后对随机选择的两行进行加法或乘法操作。BIN-COMBO技术也遵循相同的过程,添加了XOR和XNOR运算。虽然这两种机制都是旋转不变的,但在令牌被盗的情况下,相关的系统性能会严重下降。

3. 准备工作

A. Locality Sensitive Hashing (LSH)

LSH是一种散列技术,主要用于通过将相似的输入项高概率地映射到相同的“桶”中来降低高维数据的维度。与任何散列算法的情况一样,存储桶的数量比输入数据少得多。

LSH与传统的加密散列函数不同,因为它旨在最大化类似物品的冲突概率,而加密散列的目标是最小化冲突概率。Lsh散列函数族的形式定义如下定义1(Lsh[29]):Lsh是H散列函数族H上的概率分布,使得Ph∈H[h(X)=h(Y)]=d(X,Y),其中d是定义在对象X和Y的集合上的距离函数。

LSH方案围绕多个散列函数(Hi)的实现展开,这些散列函数对来自X和Y的输入对象进行散列。这些本地散列的使用有助于很好地近似输入项关于其冲突概率的成对距离。因此,LSH确定两个相似项X和Y的散列之间的冲突概率仍然非常高。或者,不相似的输入项转换为具有非常低的冲突概率的散列。这些声明可以正式表述为:

 

B. Bit Sampling Based LSH

虽然LSH方案最初是为信息检索和文档处理而设计的,但它最近已被用于生成指纹散列[30]。在我们生成工作中,我们通过从均匀划分的IrisCode块中随机采样比特来构造LSH函数。这种随机化比特采样技术是构建LSH系列的最有效方法之一[31]。此外,这种方法适合我们的设置,因为它适用于d维向量{0,1}d上的Hamming距离(这与IrisCodes的格式相同)。这里,散列函数族H是d维之一上的点的所有投影的集合。

因此,

在Eqn。2,xi表示x的第i维。虽然原始的比特采样方案只随机选择单个比特来构造单个哈希函数,但我们在框架中采样了多个IrisCode索引来构造相同的哈希函数。

4. 方法论

A. Locality Sampled Code (LSC) Generation

 B. 碰撞的概率分析

由于我们的模型是基于比特采样的LSH,我们可以扩展它的内在属性以适应我们的场景。LSH通常由散列函数族上的概率分布来表示,使得任何两个散列之间的冲突概率直接依赖于它们的相对距离。概率P1和P2可表示为:

P1是两个类内数据样本的最小冲突概率,P2是两个类间数据样本的最大概率,R是距离阈值,c是大于1的正常数(近似因子),d是输入域的大小。

采样k个下标:

 如果我们假设块同质性(即,块中不一致的比特数对于每个块保持相同),则对于任何大小的块\frac{HD\left ( B_{i},B_{j} \right )}{b}保持不变。我们用\epsilon来表示它。

\epsilon是IrisCodes的固有属性,不同的数据库有不同的属性。

类内汉明距离通常\epsilon \approx 0, 因此,关联的概率界限P1获得更接近于1的值,这表示非常高的碰撞概率。另一方面,两个类间IrisCodes之间的比较可以被认为是匹配(或不匹配)概率为50%的独立测试[3]。因此,c×\epsilon的值(即总距离)可以设置为等于0.5。

 两个块组件之间的冲突可以以两种方式发生:

(I)如果它们是相同的(即,它们已经冲突)

(Il)如果它们是不同的并且仅在实现由等式指定的变换函数之后发生冲突。(即做模运算)

第一种情况的冲突概率已经通过Eqn8指定。对于第二种情况,碰撞概率可以用项P_{\mathbb{C}}=\frac{\left ( T\times 2^{k} \right )\times rC_{2}}{2^{k}C_{2}}来表示(证明见附录部分)。因此,总体碰撞概率变为:

r=\frac{1}{T}或者r=\left \lfloor \frac{1}{T} \right \rfloor+1 

我们的论点随后可以通过考虑所有n个块的随机化比特采样扩展到整个IRISCode。由于每个块的LSC是独立生成的,则:

 通过方程n建立了P1和P2的值直接决定底层生物识别系统的识别性能。

P1和P2之间的较大差异表明类内IrisCode样本散列到相同的桶,而类间样本散列到不同的桶。P1和P2之间的差值越小,系统性能越差。值得注意的是,由于c>1,所以P1的值总是大于P2。这一观察结果实际上转化为类内IrisCode样本的冲突概率总是大于类间数据的冲突概率(这是LSH系列的设计原则)。有趣的是,这两个概率界都不取决于散列函数的数量(即l)。因此,这一观察结果表明,我们的模型的性能不受此特定参数的影响。然而,正如稍后在第七节中所分析的那样,l确实决定了框架的总体安全。

C. 比较分数生成

 对于我们的模型,我们通过一对一地比较它们各自的块来估计两个LSC之间的总体相似性。

 对于来源于参考LSC和探测LSC的两个块,我们通过选择它们的不可逆块分量,初步形成大小为l的两个集合Ei和Qi。我们逐个元素地比较这两个集合,并计算完全匹配的元素的数量。然后,我们通过将匹配的数量除以集合的基数(即。l)生成标准相似分数。值得注意的是,我们没有选择其他传统的相似性度量,如Jaccard相似性,因为它没有考虑集合中元素的固有顺序。元素顺序在我们的模型中起着至关重要的作用,因为每个元素都对应于一个特定的散列函数。我们通过对所有块重复这一过程并求出全局平均值来生成最终的相似性分数(S)。我们分别用Ei={e1,e2,...el}和Qi={q1,q2,...ql}来表示包含参考和探测IrisCodes的不可逆块分量的集合。相似度分数计算如下:

取值范围是[0, 1] 

我们的分数生成程序还包括对齐阶段,这是解决虹膜旋转不一致所必需的。在我们的模型中,我们遵循了[6]中提出的在LSC比较期间对齐LSC的技术。通过在左右两个方向上移动探头IrisCode来执行对准。?16位(即每个方向16位)。然后,从33个组合中的每一个生成LSC(同时使用相同的散列函数集),并随后与参考IrisCode的LSC匹配。我们将记录的最高结果指定为参考IrisCodes和探测IrisCodes之间的最终相似性分数。

5. 模拟设置

具体地说,我们讨论了所使用的数据库,所采用的前处理技术和相关的比较协议,以产生真正的和冒充的分数。

A. Database

 B. Pre-Processing

IrisCodes的预处理包括分割过程,然后是特征提取程序。我们实现了在[33]中提出的从整个眼睛分割虹膜区域的机制。它包括从样本图像中检测虹膜,并将其展开为尺寸为64×512像素的增强矩形纹理。该两阶段算法使用加权自适应Hough变换来寻找感兴趣区域(ROI)和初始中心点。下一步利用该信息对图像进行极变换,并随后从(椭圆)极表示中提取边缘边界曲线。

我们在工作中使用的特征提取技术是由Ma等人提出的。虽然该算法相对较旧,但由于其在相关工作中的广泛应用,我们决定在本研究中实施它。在该方案中,虹膜纹理被分成10个条纹,从而产生5个一维信号。每个信号是通过对分割的虹膜纹理的5个相邻行的像素平均来构造的。接下来,对这10个信号应用二进小波变换,然后从每个变换信号中选择两个固定的子带。因此,总共产生了20个子频带。在每个子带中,定位高于适当阈值的所有局部极小值和极大值,并在每个极值点提取在0和1之间交替的代码。该特征提取过程产生大小为20×512=10240比特的IrisCode。

C. Comparison Protocol

CASIAv3虹膜间隔数据库由数量可变的类内虹膜样本组成,而IIT德里数据库每类由5或10个样本组成。对于这两个数据库,我们通过将一个类的每个IrisCodes与该特定类的其余IrisCodes进行匹配来执行真正的比较。我们对两个虹膜数据库的所有类别重复了这一过程。或者,通过将类的第一个IrisCode与每个其他类的第一个IrisCodes进行匹配来进行类的冒名顶替者比较。对于这两种情况,我们都没有包括任何对称比较。通过比较两个LSC到Eqn来计算最终的相似度分数。

6. 实验结果和分析

在我们的实证部分,我们评估了我们的模型在各种参数设置下的性能,并随后选择了最优的系统配置。我们具体研究了以下参数对所得到的识别系统的等错误率(EER)的影响:块大小b(或者可替换地,块的数目n)、每个块的散列函数的数目l、散列函数的大小k和安全阈值T。

A. Effects of Block Size

可以观察到,对于CASIAv3和IITD数据库,分别对于b=80/160比特和b=160比特的块大小获得最佳EER。重要的是,b(或n)的值确定类内和类间冲突概率,从而也调节整体系统性能。由此可以推断,对于两个虹膜数据库,当n=128/64和n=64时,P1值和P2值之间的差异最大。由于最佳EER为0.105%(对于CASIAv3)和1.4%(对于IITD)都对应于b=160,我们在后续的实证研究中确定了这个值。

 B. Effects of Hash Function Parameters

 其中可以明显地注意到,对于k=10,EER值被优化。因此,该观察表明,对于该特定值k,两个冲突概率之间的边界差是最大的。

有趣的是,EER并没有随哈希函数的数量发生实质性变化。这一结果是直观的,因为所有的位采样操作都是从固定的样本空间(在我们的例子中是IrisCode块)独立执行的。这一结果也符合我们之前的理论观察(在第IV-B节中),即两个碰撞概率都不取决于这个特定的参数。

{l = 400, k = 10, T = 0.5}(CASIAv3 database) and {l = 200, k = 10, T = 0.5}(IITD database), 

所有上述结果都得到了相关的检测误差折衷(DET)曲线的支持,如图2所示。这些曲线还展示了生物识别系统在不同操作点的性能。

C. Effects of Security Threshold

最后进行了实验,专门分析了安全门限对识别系统性能的影响。在这个模拟中,我们将T={0.15,0.25,0.5,0.75}更改为l={100,200,300,400}和k={5,10,15}。图3.CASIAv3数据库的EER随T的变化。(即。b,l,a n d k),可以从安全和性能的角度证明T的选择范围是合理的。T的取值直接决定模映射(R)的取值,wh i c h进一步规定了框架的安全性。此外,T值的大小直接影响到模型的性能,决定了Pc的大小。两个数据库的结果EER的变化如图3和图4所示。

从这两幅图中可以观察到,EER最初随着T的值而减小,但在特定点之后随后增大。当散列函数的大小相对较大时,这一趋势尤其明显。因此,T的这个临界值对应于P1和P2之间的最大间隔,这进一步指示了生物测定系统的最佳性能。

D. 比较分析

我们将我们的框架与其他相关工作(EER%)进行了比较,这些工作已经在CASIAv3和IITD数据库上报告了他们的结果。

由于存在不同参数设置导致的多个场景,我们为每个方案选择了最佳(最低)的EER。值得注意的是,对于CASIAv3数据库,我们提出的方法得到了最低的EER=0.105%。这种低错误率本质上表明所得到的可取消生物测定系统具有非常好的识别精度。对于IITD数据库,我们的模型得到了最低的EER=1.4%。虽然该值不如文献[20]、[24]中报道的值,但我们没有采用任何基于多生物特征的融合策略,也没有利用原始IrisCodes的任何统计信息来优化系统参数。

由于我们的所有结果都与[33]中介绍的分割技术和[34]中提出的特征提取方法的使用相对应,因此表IV也包含与无保护基线模型的比较。对于这样的模型,所有的分数都是通过估计两个原始IrisCodes之间的归一化汉明距离来计算的。通过考虑最小汉明距离来确定最终匹配分数,同时在两个方向上移动探头IrisCode。±16位。图5中给出了描述基于LSC的模型和相关基线模型的最佳性能的DET曲线。特别值得注意的是,我们提出的方案显著改善了基线模型的性能(特别是对于IITD数据库)。这一重要结果的主要原因可以归结为LSH的工作原理。我们采用的基于位采样的散列技术最小化了两个类内LSC模板的冲突概率,同时最大化两个类间LSC模板的冲突概率。正如前面在第IV-B节中所分析的,在这两个概率之间存在着相当大的差距(即,P1和P2),从而导致如此低的误码率。

7. 安全分析

A. Non-Invertibility

不可逆性是指保证活跃的攻击者不应该能够将受保护的LSC模板反转为其对应的原始IrisCodes。在我们的分析中,我们假设对手拥有被盗的LSC以及系统参数值(即k、l、n、m和T)。我们分析了前人工作[6]中提出的三种不同攻击的不可逆性保证--单哈希攻击(SHA)、多哈希攻击(MHA)和通过记录重数的攻击(ARM)。对于每一种攻击,我们在两种标准设置--真实令牌和被盗令牌--下对我们的模型进行评估。我们定量分析不可逆性概念的一般策略是建立对抗成功的概率界,以反转受保护的LSC。

1) Single Hash Attack (SHA):

SHA指的是从相关联的LSC的单个散列条目恢复原始IrisCode的敌意能力。因此,在这个场景中,我们试图估计对手仅从单个MAP获得完整的m比特IrisCode的暴力成功概率。我们首先分析真实令牌场景,其中我们假设对手不拥有可取消的置换令牌。为了逆转LSC,敌手首先需要从对应的不可逆对应的块分量中重构块分量。我们最初估计特定块的对抗成功概率(P),因为每个不可逆块分量对应于单个IrisCode块。为了测量模运算的复杂性,我们需要估计可能的模映射的数量(用r表示)。R值实质上表示映射到相同输出的输入项的数量。在我们的例子中,C(Bi)和{C}'\left ( B_{i} \right )的范围分别是[0,(2^{k}−1)]和[0,(T×2^{k}−1)]。

 

 在逆转不可逆块组件(PM)时,对手的成功概率变为:

在正版令牌场景中,成功概率定义在公式n中。13进一步减少,因为对手不拥有关于秘密置换令牌的任何信息。因此,对手的唯一方法将是尝试所有的排列可能性。因为我们从大小为b比特的块中随机抽样k比特索引,所以可能的排列的数目变为_{}^{b}P_{k}=\frac{b!}{\left ( b-k \right )!}随后,正确重构标记的位置比特的对抗性成功概率变为:

 

因为我们必须考虑完整的块,所以我们还需要在准确猜测未标记的位置比特(即,未被该特定散列函数采样的那些索引)时估计P。假设块Bi中的未标记比特位置的数目由x表示。应当注意,LSC特征没有揭示关于这些比特的信息,因为我们在特征编码过程中没有并入任何这样的信息。因此,对手在正确猜测Bi中的每一个这样的比特时都有50%的成功率。因此,猜测所有未标记位置比特(\mathbb{P}_{U})的对抗性成功概率等于:

重构单个块中的所有b个比特的总体对抗性概率可以通过乘以Eqn中已标记和未标记位置比特的各个成功概率来近似。因此:

以等式表示的概率。16仅对应于IrisCode的单个块。由于我们已经将IrisCode分成n个独立的块,因此在真实令牌(GT)场景下构造整个IrisCode的对抗成功概率最终可以定义为:

在Eqn17,我们保持了排列概率\frac{\left ( b-k \right )!}{b!}在指数项之外,因为对IrisCode的所有N个块使用相同的置换令牌。现在,我们在盗取令牌的范例下研究LSC的不可逆性,其中我们假设对手知道[B]。令牌被盗的情况使得对不可逆性保证的评估变得更加实际。在这种情况下,攻击者只需要将不可逆块组件重新映射到其对应的块组件。随后可以通过调查来自[B]的相关索引来重建标记的位置比特。然而,由于[B]不包含关于未标记位置比特的信息,因此令牌被盗的情况不影响揭示未标记位置比特的成功概率。这样,从单个块生成已标记和未标记位置比特的对抗性概率变为:

 

相应地,在被盗令牌(ST)场景中构造整个IrisCode的对手成功概率变为:

 

 这可以注意到因为对手的成功概率降低了系数\frac{\left ( b-k \right )!}{b!},所以在真实令牌场景中的不可逆性保证比被盗令牌场景中的不可逆性保证相对更强!在前一种情况下。这一分析因此证明了在SHA期间隐藏置换令牌的重要性。

2) Multi-Hash Attack (MHA): 

在MHA中,我们假设对手利用来自由l个散列函数组成的所有LSC模板的信息。与SHA分析类似,我们在真实令牌和被盗令牌两个标准下对我们的模型进行了评估。在真实令牌场景中,敌手的攻击策略将是反转关联映射中的所有l个块分量,从而暴露块Bi的所有标记位置比特。此外,块分量的不可逆性取决于r。然而,在MHA场景中,对手需要反转与l个散列函数相对应的总共l个块组件。

由于每个散列函数都是独立构造的,因此求逆所有l个块分量的对抗性成功概率变为:

 现在我们分析[B]对该成功概率的影响。对于MHA场景,对手需要为l个块组件中的每一个尝试所有可能的排列。以前在第VII-A.1节中已经确定,单个块分量的排列数目是\frac{b!}{\left ( b-k \right )!}由于对手必须为每个块组件找到正确的令牌,因此可能的排列总数变成\left [ \frac{b!}{\left ( b-k \right )!} \right ]^{l}随后,准确地重构单个块的标记位置比特的对抗性成功(得到的准确bit数目不止k,但又<lk,因为会有重叠部分)概率变为:

 

 

现在,我们继续为未标记的位置位寻找相同的位置位。令块b1中的未标记比特位置的数目由xi|0≤xi<b表示(xi因块而异)。或者,xi表示在bi中不包含在所有l个散列函数中的唯一索引的数量。显然,当l个散列函数对所有块索引进行采样(即,没有剩余的未标记位置)时,xi=0,并且在所有散列函数每次都对单个索引进行采样的极不可能的情况下,xi=(b−1)。

在与SHA类似的推理中,猜测块BI的所有未标记位置比特的对抗性成功概率等于:

 准确猜测块Bi中的所有b个比特的总概率可以通过将标记的和未标记的位置比特的成功概率相乘来估计:

 最后,整个IrisCode在真实令牌场景中的MHA成功概率可以估计为:

 由于[B]揭示了每个块的标记位置比特的更大数量的索引,因此令牌被盗的情况对处于MHA模式中的对手来说是有利得多的情况。因此,我们的模型的不可逆性保证变得更弱,因为未标记的位置比特的数量大大减少。在单个块的被盗令牌场景中重构已标记和未标记位置比特的对抗性成功概率等于:

此外,在重构整个IrisCode时也是如此:

 这可以通过比较方程来观察到使用方程24比方程26增加了\left [ \frac{\left ( b-k \right )!}{b!} \right ]^{l}倍,在令牌被盗的情况下。因此,与SHA相比,MHA的优势仅在令牌被盗的情况下有效。

3) Attack via Record Multiplicity (ARM):

ARM指的是一种特定类别的隐私攻击,其中攻击者试图通过利用其多个受保护的实例来恢复原始生物测定模板[39]。在这种情况下,我们认为对手试图通过利用从I生成的多个受危害的LSC(连同相关的系统参数)来重新创建特定的IrisCode I。因此,ARM可以被认为是MHA的推广,其中可用散列的数量要多得多。根据前面的章节,我们估计了ARM在真实令牌和被盗令牌场景下的不可逆性保证。

设从\mathbb{I}生成的不同LSC模板的数量由y表示。由于每个LSC特征由\mathbb{I}个散列函数生成,因此对手使用的散列函数的总数变为(l×y)。在真令牌场景中,我们初步估计了所有(l×y)不可逆块分量及其相关置换令牌求逆的对抗性成功概率。

由于ARM仅仅是MHA的推广,我们可以通过修改方程10来直接估计第一个量:

 因此,准确地重构单个块的标记位置比特的对抗性成功概率为:

 这样,正确猜测块Bi中的所有b比特的总概率变为:

 最后,整个IrisCode在正版令牌场景中的ARM成功概率变为:

 我们假设对手知道所有的y置换令牌。有标记比特和无标记比特的相应对抗性成功概率发展为:

因此,在令牌被盗的情况下,总体ARM成功概率变为:

 4) Discussions:

由于不需要任何置换令牌,攻击者仅在令牌被盗的情况下才享有MHA和ARM方案的明显优势。

这一优势随着对手可用的独立LSC功能的数量而直接增加。此外,最好的对抗性成功场景取决于几个系统参数,例如单个块中的位数、散列函数的大小和散列函数的数量。现在,基于我们在第六节中使用的一些真实参数值,我们给出了最佳成功概率的一个近似度量。因此,这个概率将代表我们模型的一个实际的‘最坏情况’不可逆性保证。我们选择b=80比特、k=10、l=100、T=0.25、r=1、T=4和n=128的平均参数设置。尽管未标记比特位置的数量因块而异,但我们可以平均取Xi=20比特(即,10×100=1000个随机样本没有覆盖20个唯一的块索引)。在所有这些限制下,最好的对抗成功对应于在被盗令牌情况下使用SHA。实际价值可计算为:

 因此,在最坏的情况下(对对手来说是最好的情况),对手在所有比特上获得的优势比暴力破解方法高出≈3.63倍。然而,在现代可用资源的情况下,由此产生的成功概率在计算上仍然是不可行的。

 B. Revocability

第七节-A.3节中对ARM的分析正式证明了对手从多个LSC模板中推导出原始IrisCode在计算上是困难的。或者,这一事实意味着可以从相同的基本IrisCode安全地生成多个LSC,从而满足可撤销属性。我们还可以通过生成伪冒名顶替者分布来实证研究这一保证。

在这个特定场景中,通过利用100个随机生成的置换令牌,从单个IrisCode生成了100个不同的LSC模板。随后将第一个LSC与其余99个模板进行匹配,以生成伪冒名顶替者分数。对两个数据库中的所有IrisCode样本重复整个过程。如果-(1)冒名顶替者(不是同一个实验者)和伪冒名顶替者(是同一个实验者但是用不同的令牌进行变换)分布重叠,并且(2)真实的和伪冒名顶替者分布具有明显的可分离性。

 我们对最佳设置{n=128/b=80,l=100,k=10,T=0.25}(CASIAv3)和{n=64/b=160,l=400,k=5,T=0.25}(IITD)进行了上述模拟。

两个分布之间的可分离性或重叠可通过相应的可判断性指数({d}')来定量估计。该度量被描述为两个分布的平均值之间的归一化距离。{d}'的值越高表示两个分布之间有很好的分离,而{d}'低表示存在重叠。

我们在我们的模型中满足了可撤销要求,因为如果数据库在任何时候受到危害,每个IrisCode都可以生成一个独立的LSC。

C. Unlinkability

不可链接性规定从同一IrisCode生成的多个LSC模板应该彼此不可区分。在我们的模型中,LSC的产生直接由随机采样的置换令牌控制。由于每个置换令牌都是独立生成的,因此可以合理地推断得到的LSC也是独立的。因此,这一论点验证了我们模型中的不可链接性保证。这一重要特性还意味着,攻击者不能通过利用从同一IrisCode生成的多个LSC来执行基于交叉匹配的链接攻击。

通过mated (H_{m})和non-mated (H_{nm})分数分布可以更彻底地分析LSC的非链接性。匹配分数是通过比较使用不同密钥(类似于伪冒名顶替者分数)生成的属于同一主题的LSC模板来计算的,而非匹配分数对应于使用不同密钥的不同对象产生的LSC模板。

如果在交配和非交配分数分布之间存在相当大的重叠,则满足生物测定系统的不可链接性属性[41]。更正式地说,如果对于某些链接分数s,如果p\left ( H_{m}|s \right )> p\left ( H_{nm}|s \right ),则两个受保护模板T1和T2变得可链接。对于这样的情况,受保护模板很可能来自相同的生物测定样本。或者,如果p\left ( H_{m}|s \right )\leq p\left ( H_{nm}|s \right ),则T1和T2将属于不同的生物测定样本,系统被认为是完全不可链接的。

基于(H_{m})和(H_{nm})的似然比,Gomez-Barrero等人提出了两种度量。用于定量测量不可链接性的程度:(I)为每个分数操作的局部度量D_{\leftrightarrow }\left ( s \right ),以及(Ii)估计整个系统的不可链接性的全局度量D_{\leftrightarrow }^{sys}。这两个度量都定义在区间[0,1]中,0表示完全不可链接,1表示可链接。

根据[41]中定义的基准协议,我们利用不同的哈希函数从一个虹膜数据库中生成了六个受保护的实例。此外,在假设p\left ( H_{m}|s \right )= p\left ( H_{nm}|s \right )的情况下,我们设置ω=1。配对样本、非配对样本和相关局部测量D_{\leftrightarrow }\left ( s \right )值的分数分布如图7所示。

 

可以立即注意到,对于这两个数据库中的任何一个,这两个分布并不完全重叠,从而表明存在某种程度的链接性(可能是由于我们在模拟中实现的随机化功能中的不完善)。对于CASIAv3数据库,LR(S).ω=1的过渡点出现在s=0.005处。这一观察结果转化为s≤0.005的p\left ( H_{m}|s \right )\leq p\left ( H_{nm}|s \right ),因此该系统变得完全不可链接。然而,对于0.005<s<0.02时,D↔(S)值保持在[0,1],而在s=0.007时达到最大值0.58.。因此,在此特定分数下,对手在使模型的不可链接性属性无效方面将具有最大优势。

对于IITD数据库,LR(S).ω=1出现在s=0.13时,D_{\leftrightarrow }\left ( s \right )=0.54出现在s=0.15时。因此,对于s≤为0.13和s=0.15时,生物测定系统变得完全不可链接和最大可链接。相应全球连通性衡量标准分别为D_{\leftrightarrow }^{sys}=0.005和D_{\leftrightarrow }^{sys}=0.008。观察到iitd数据库的D_{\leftrightarrow }^{sys}的值相对较高,因为更有可能的是,两个受保护的模板来自s>0.13的匹配实例。然而,我们仍然可以定量地证明我们模型的不可链接性,因为D_{\leftrightarrow }^{sys}的两个值都非常接近于零。

8. 总结

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值