论文笔记:Additive Adversarial Learning for Unbiased Authentication

作者:

摘要

身份验证是一项旨在确认数据实例和个人身份之间真实性的任务。典型的身份验证应用包括人脸识别、行人识别、基于移动设备的身份验证等。最近出现的数据驱动的认证处理,可能遭遇非期望偏差,如模型经常在一个领域内训练(如,穿春装的人),但却要求应用在其他领域(如,他们将衣服改为夏服)。为了解决这个问题,我们提出了一个新的两段式方法,用来解决分类任务中领域不同的问题,乃至考虑多种类别的领域问题。在第一阶段中,我们通过采用一对多的解耦学习(one-versus-rest disentangle learningOVERDL)机制来学习结果的特征表示。在第二阶段中,我们通过加性对抗学习(additive adversarial learningAAL)来提高解耦性。此外,我们还讨论了避免因领域差异因果相关类型的分离而导致学习困境的必要性。综合评估结果证明了本文提出的方法的有效性与优越性。

1 引言

面对训练集、测试集之间不同领域差异的问题,即使训练数据是充分的,简单采用数据驱动方式可能导致 专注于领域偏差的不受期待的解决方案。为了减轻上述问题,本文目的在于解决无偏(没有领域差异)认证的任务。我们认为有多种领域类别,领域类别内又有多种类别。如对于行人识别,季节和拍摄角度是两个领域差异的类别,其中季节包括春夏秋冬,拍摄角度包括前、后、两侧等。

为了更好地理解我们的问题,我们提出一个小例子,该例子只有一种类别的领域差异,如表1所示。在训练时期,对于每组实验,我们只有一种领域的数据。换句话说,不同领域并不分享同一个身份类别。在测试时期,我们需要对数据进行识别,该数据对应没有见过的<类别,领域>组合。数学上,我们要解决的问题是关于领域自适应,但不同于领域自适应,因为领域自适应允许源领域和目标领域分析类别,但是在目标领域不提供标签。领域自适应已经在迁移学习领域被广泛地研究。假如测试领域的数据被允许无类别标签学习,我们的问题就被转化为领域自适应问题。因此,我们把本文要解决的问题认为是泛化的跨领域识别(GCDR)问题。类似问题也已经在面向公平的机器学习(fairness-oriented machine learning,FML)方法中研究过,该方法关注人口统计学归类中的偏置对抗,如少数民族或者妇女。FML方法在这些场景下经常采用迁移学习方法作为解决方法。在本文中,我们也采用迁移学习方式进行无偏向量的学习。特别的,为了集中注意力于主要问题,我们简单地采用对称迁移学习方法。

本文中,我们提出一种新的识别方法,该方法学习解耦的特征表示来解决领域差异,从而达到无偏识别。如表1所示,对于一个特定的类别组,类别是不同的,但领域是相同的。因此,学习一种无偏模型是可行的,它可以在不考虑领域差异影响的情况下对类进行分类。我们也假设尽管我们有领域标签和领域差异类别,但领域差异如何影响数据是未知的。对于一个数据实例,它的类别和领域值被认为是它的属性。我们的方法学习无偏特征表示,通过解耦这些属性得到。本文框架如图1所示,共分为两个阶段。在阶段1中,我们提出一个1一对多解耦学习(OVRDL)机制,来将各个实例映射到多重隐藏空间。在每个隐藏空间中,我们从其他属性中解耦出一个属性。在第二阶段,由于训练数据中包含了有限的属性值组合,我们进行数据扩充,将属性标签随机组合,并将其关联的隐藏特征向量作为新的数据样本串联起来。一个基于隐藏特征随机连接的加性对抗学习(AAL)机制被提出来,用来进一步提高阶段1的解耦能力。直观的,偏见是通过最小化负面副作用来移除的。我们扩展开来讨论了,如何避免由于解耦因果相关属性带来的学习困境。在基线与实际场景数据集的实验结果表明了我们提出的方法的有效性和优越性。我们也进行消融实验,来展示我们提出的框架的每一个部分的贡献。

2 相关工作

为了从领域差异的未知特征学习无偏表征,有三个重点方法来利用现有的迁移学习方法,这些方法也同样是基于FML表征学习的典型解决方法。在本节中,我们回顾了这些方法以及相关方法,并列出他们的跟本文方法的区别。

消除边缘分布差异 第一种类型消除了领域之间的边缘分布差异。这一部分包括迁移成分分析(Transfer Component Analysis (TCA))、深度自适应网络(Deep Adaptation Network (DAN))、梯度逆转(Reversing Gradient (RevGrad))、对抗区分领域适应(Adversarial Discriminative Domain Adaptation (ADDA))以及其他。FML方法由Goel等人、Zhang等人提出,同样属于这个范畴。许多FML方法采用了梯度逆转,如。。。

产生未知的<类别,领域>组合 第二种类型产生与未知<类别、领域>组合相联系的数据样本,如ELEGANT [35], DNA-GAN [34], Multi-Level Variational Autoencoder (ML-VAE) [5], CausalGAN [14], ResGAN [27], SaGAN [40], among others. FML方法Fairness GAN [26] and FairGAN [36]也属于这个范畴。这些方法产生合成数据,然后一般模型就可以在真实数据和合成数据上进行训练。

混合方法 第三种类型同时采用了边缘分布差异消除和合成数据产生,例如Cross-Domain Representation Disentangler (CDRD) [15], Synthesized Examples for Generalized Zero-Shot Learning (SE-GZSL) [30], Disentangled Synthesis for Domain Adaptation (DiDA) [6], AttributeBased Synthetic Network (ABS-Net) [18],等。FML框架有Madras et al. [20]

其他相关工作 这种分组类别的现象同样在Bouchacourt et al. [5] and Zhao [42]中讨论过。然而,他们并没有提供学习方法来消除领域差异。Heinze-Deml and Meinshausen [12]同样讨论了这个问题,但是他们猜想不同领域的类别已经包括在训练数据集中。

现有工作与本文工作的差异 尽管有许多成果,但现有的方法并没有解决GCDR问题,或者不能避免解耦领域差异类型联系导致的学习困境。此外,大多数生成式方法在原始数据空间产生样本。然而,如果一个适当的模型被捕获,在原始空间生成的数据是不必要的,并且可能在数据生成和学习生成数据的时候导致额外错误。上述关注可以通过我们提出发方法解决。

3 方法论

这个章节详细介绍了我们提出的网络。我们首先定义符号和问题。

为n个独立的样本。对于第i个样本,是d维特征向量,是识别任务的分类标签,是一个由m个类别领域属性组成的向量。例如,在有颜色的MNIST(C-MNIST)识别中(Lu等人的图六例子),表示28*28的有色图片,表示类标签,图片的背景颜色(表示为)和字体颜色(表示为)是两种类型的属性。不同背景颜色、字体颜色的组成可以组成多重领域。为了表达方便,我们用作为样本i的生成属性向量。我们用表示 第j个元素,表示集合的大小。通篇论文中,我们用表示指示集合

实际上,数据集的样本经常是不完整的。例如图2所示,数据集中有红色背景的数据5,有绿色背景的数字2,但事实上有可能需要识别的是绿色背景的数字5。正式地,我们定义GCDR问题如下:

         问题1 (广义跨领域识别,GCDR)给以数据集,让为部分观察数据集。我们要解决的问题是训练一个模型,这个模型通过只有部分属性组合的训练集训练,然后泛化这个模型到测试集中,该测试集有训练集中没有属性组合样本。

         训练集表示为,测试集表示为。我们限制训练集与测试集没有交叉,即。此外,对于训练集,对于第j个类别的领域差异,表示其领域内第r个类别为我们限制不同领域内的类别直接没有交集,即对于每个第j类型的领域差异,对于所有r,其中(什么意思?公式跟第一个逗号之前的说明不一致。)

         我们的框架结构基于ABSNet,进一步有以下新的贡献:(1)一对多解耦学习机制;(2)一个AAL机制用来进一步提高解耦性能;(3)一个扩展策略,用于避免由于解耦因果相关属性导致的学习困境,将会在下面介绍。

3.1 一对多解耦学习

         我们主要的目的是解耦所有类型的领域差异与需识别分类的联系。此外,作为一种辅助手段,我们同样致力于结构每种领域差异与其他类型的领域差异。如之前所提及的,如果我们将类别和所有种类的领域差异看成是属性,我们的目的是解耦每种属性与其他属性。因此,我们可以针对每种属性开发一种一对多策略来达成两个目的:(1)学习每种属性本身(2)从其他属性解耦该属性。

          特别的,对于每种属性,我们学习从原生数据空间到隐藏空间的映射:(这里我们省略了样本顺序的索引)。在隐藏空间,上述两个目标可以被具体为:(1)通过不同类别的属性j联系的样本可以被很好的分割开来,即;(2)样本分布独立于其他属性,即,这可以通过对抗学习处理达到。

         如图1所示,在阶段1中,我们构建一个网络来达到上述目的。对于一个新样例的特征向量x,它被输入特征装换网络P转化为一个隐藏特征向量,该向量再通过属性特征学习网络分别进一步转化为属性特征向量。对于每个属性j,我们期望隐藏空间联系特征向量来达到上述两个目标。

        为了达到上述目标,我们针对每个属性开发出一种一对多解耦学习(OVRKL)机制。对于每个属性j,我们构建(m+1)区分网络,。每个区分网络尝试区分相互联系的属性的不同类别。我们希望对角网络可以直接、正确地预测,而非对角网络学习对抗性、不能正确地预测。如Alexia提出的对抗学习机制,针对非对角网络一个简短版本的对抗学习可以被归纳为以下两个可选步骤:

         步骤1 固定,对于每个,最优化使得输出近似(即目标的one-hot-coded向量)。

        步骤2 对于所有固定,最优化,使得输出近似

        最后,我们在阶段1中建立了OVRDL机制。对于每个步骤的学习,我们通过以下公式优化:

其中是针对属性学习的损失函数,的one-hot编码向量,是第j个属性的权重,。对于每个类型的领域差异,区分领域,我们采用以下方法优化:

其中是对抗学习的损失函数,的权重,。为了在对抗学习中加强属性学习,我们优化了:

         最后,为了消除所有类型的领域差异,我们优化:

其中

         区分网络的最后一层激活函数采用softmax函数。我们选择交叉交叉熵损失作为,平均方差作为(参考LSGAN)。等式(1)(2)(3)(4)为可选优化。对于每个最小批次,等式(1)(2)跑一步,而等式(3)(4)跑5步。

        针对阶段1进行推断,我们堆叠来针对每个样本i预测类别标签。尽管从所有类别的领域差异解耦样本分类,可以仅通过网络的第一支线完成,即网络直接连接到,我们认为这种模型策略不能充分利用有监督信息来提高P的表征能力。稍后在第4章我们将通过消融学习证明这个结果。

        我们展示了我们的优化方法可以提高Equality of Odds该数值是Hardt等人定义的公平性计算方法。这意味着预测结果和领域变量有条件的独立于给出的真实标签,即

        定理1 对于GCDR问题和定义模型,我们定义于公式(1)-(4)的优化方案可以提高Hardt定义的equality of odds证明在额外的补充材料里。

3.2 加性对抗学习

        为了进一步提高解耦性能,我们提出加性对抗学习(additive adversarial learning)机制,该机制利用了属性组合这种未能在训练数据中看到的特征。属性组合通过数据增广手段产生。我们希望AAL机制拥有以下属性:当模型观察到没见过的<类别,领域>组合,偏见被最小化副面影响移除。

          首先,我们描述数据增广手段。对于每个第i个生成数据样例,特征向量是(m+1)特征向量的组合,,关联的属性向量是。对于每个属性,其中是属性j的第l个属性特征向量和属性值,是训练样例的随机索引。对于不同的属性,随机索引可以不同。例如,假设m=1,对于两个样本,,一个生成数据样本可以为。采用了Lu等人的筛选策略。

        接着,我们采用AAL机制。生成数据被分为两集合:属性值组合可以在训练集中直接观察到},和属性值组合没有在训练集中出现过。基于这两个数据集,我们在图3中阐述了我们的AAL的主要思想。假设只有两个属性:数字和背景颜色,分别为网络的两条支线。我们假设解耦阶段1已经完成最优化。然后,对于已经看到的属性值组合,对于每个属性j,我们只学习转换网络来预测。我假设这个学习方法让网络拟合看得到的数据属性组合,即一个红色背景的数字5可以被准确的识别为数字5和红色背景。然后对于没见过的组合,一个背景为绿色的数字5,我们让网络输出数字5和绿色背景。在上述猜想之下,假如输出颜色不是绿色,我们相信错误来自红色信息的第一支线。因此,我们将损失从第二个输出反向传播到第一个分支,以消除其中的背景信息。最后,第一分支中的偏见被移除。

                                          

        

          如图1中阶段2的第二部分,对于每个生成数据样本,特征向量,被加性空间转换网络转换为加性特征向量。加性特征向量被加起来作为总体特征u,被送到识别网络。对于在训练集中可以看到的属性值组合,对于每个属性,损失从只向后传播到,即我们优化以下问题:

                              

其中是识别损失函数,是属性的权重。另一方面,对于训练集中没见过的属性值组合,对于每个属性,损失函数从反向传播到,其中

                                 

          加性学习机制有两个优点:(1)各维的判别信息可以用可分解的加法形式表示;(2)每个的维度对于所有有同样的意思,这使得我们可以合并稀疏的惩罚,让每个加性特征向量的维组对应于一个属性。

         如同阶段1,对于最后一层我们选择softmax激活函数和交叉熵损失。对于推断,我们堆积来预测类标签。

3.3 对因果关系扩展的讨论

         我们进一步考虑当一些属性相关联时,如何减轻因为解耦而导致的学习困境。在最极端的情况下,如果两个属性是相同的,我们不可能不能根据特征向量识别一个属性,但可以识别另一个属性。因此,直观地,我们不应该解耦相关的属性。然而,“相关”是广泛、不精确的概念。假如我们不解耦所有相关的属性,我们可能遭遇不充分解耦问题。我们考虑一种特殊类型的相关性:因果联系。我们理论地阐述在定理2中:对于任何属性j,假如另一属性导致了它,那么将j从解耦,会损害学习一个特征向量来识别属性j。这是因为假如与属性相互独立,因为属性导致了j,和属性j之间的相互联系是有限的。因此,如果给出属性之间因果关系的先验信息,我们就应该停止一些解缠过程,避免学习困境。

          特别地,对于阶段1,我们可以用先验矩阵来把控属性之间的因果关系。对于所有并且,我们将等式(2)和等式(4)中的权重乘以。基于定理2,我们当属性导致属性j时,设定,反之。对于阶段2,对于等式(6)中的索引集合,对于每个我们可以删除由属性j导致的属性的索引。

定理2 对于所有属性,对于任意一个特征向量,在只是指示的真实标签。然后对于属性j,,假如属性导致属性j,我们不能同时完美地达到这两个学习目标:。然而,假如属性j导致属性,那么就有可能同时完美达到这两个学习目标。证明过程在补充材料里。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值