最优传输论文(八)Enhanced Transport Distance for Unsupervised Domain Adaptation

前言

1.将Kantorovich潜在网络进行参数化,并根据深度特征返回最优传输计划g(f(x))。
神经网络g来表示潜在特征对偶变量v,对应参数Wg , 优化传输计划πε的过程转化为优化网络g的过程.
对网络g进行参数优化后,利用当前参数Wg计算出最优传输距离Wε(µ,ν)。
2.利用attention模块重新衡量传输距离,对距离矩阵进行重加权操作,使一个mini-batch实现真实的数据分布。
3.最终,通过Kantorovich潜在网络计算得到的g(f t j)与重加权后的距离矩阵c(f s i,f t j)得到最优传输距离Wε(µ,ν)即损失函数Lopt,见式7.

Introduction

在OT模型中,传输距离不能体现出不同域之间以及类别先验的判别信息
本文提出的
1.用于解决UDA中的OT瓶颈的ETD端到端方法,在迭代学习分类器的预测反馈的指导下,建立了一个注意感知的OT距离,以测量域差异
2.通过深度神经网络对Kantorovich潜在变量重新参数化,使OT传输计划更加精确,降低传输成本,域差异最小化。
3.提出了基于熵的正则化方法充分利用预测信息,探索目标域的内在结构。
注:如果距离定义的好,也就是两个域之间的差异衡量的非常准确,那么在此基础上设计出的传输方案更有利于神经网络把两个域映射到同一个特征空间。

当前的基于OT距离的域适应受到两个瓶颈限制:1.mini-batch不能完全反映真实的分布情况,因此得到的运输距离缺乏辨别能力,估计的运输计划存在偏差。2.OT方法忽略了目标域的标签信息和潜在结构。

本文的ETD基本结构由特征提取网络、分类网络和传输方案优化三部分组成。主要贡献如下:
1.我们根据分类结果,利用注意力机制来估计样本之间的相似性,并利用注意力分数来衡量运输距离。加权距离有望很好地学习判别特征。
2.原有的semi-dual方法:对偶变量用变量表示。本文用一个三层神经网络表示,用三层网络重新参数化Kantorovich潜在网络

回顾OT

OT的目标是找到两个度量空间之间的映射,这个映射使得两个概率测度之间的传输成本最小。
在这里插入图片描述
κ即为X->Z的映射。

Kantorovich将OT转换为耦合(X, Z) ~ π的最小化,而不是映射集,其中**π(耦合矩阵)应该具有等于µ和ν的边缘。
π的硬约束可以进一步放宽,增加
严格凸正则化项R(·)**可以加快OT的计算速度,即:
在这里插入图片描述
正则化项还通过使OT距离在各处可微来加速优化。

Our Method

网络结构由特征提取网络f(·)、分类网络η(·)和Kantorovich潜在网络g(·)三部分组成。
工作流程如图2所示。特征提取器以原始图像x为输入,输出深度特征f(x)。分类器将特征f(x)映射到分类预测η(f(x))。参数化的网络根据深度特征返回最优传输计划g(f(x))。此外,我们还引入了一个attention模块来重新衡量传输距离
在这里插入图片描述
图2.ETD自适应模型结构图。源域和目标域共享特征提取器的网络权重。Kantorovich潜在网络由三个全连通层构成,attention网络则被表述为单个全连通层利用attention矩阵对最优运输距离进行重新加权。

Attention-based Distance Weighing

OT中涉及的距离函数c是通过两个样本的特征来计算它们之间的距离。设C为每批的距离矩阵
在这里插入图片描述
reweight之后当前batch的分布和整体数据分布相同。
提出了一种基于attention机制的自适应加权OT算法注意分数表示样本之间的相关程度。通过应用重加权距离矩阵,将当前的小批量调整到真实的数据分布。
attention网络由两个完全连接的网络层组成。以η(f s)和η(f t)作为attention矩阵S∈R b×b的输入和输出,将其用于加权。Sij表示源域样本xsi与目标域样本xtj的相关性。
在这里插入图片描述
其中W s a和W t a为一层注意网络的投影矩阵。attention矩阵S归一化为单位长度,S每一行元素和为1.
bt为目标域mini-batch size.
在这里插入图片描述
C表示重新加权的距离矩阵。推导出一个重加权距离度量c(fsi, ftj) = Sij*c(fsi, ftj),用于重新定义最优传输问题。加权后的距离矩阵期望可以估计出真实的场景。
在这里插入图片描述
上式为了使得大量样本支持的指标很好的伸缩。参数ε是最优运输问题中的正则化系数。
对偶问题为:
在这里插入图片描述
u,v为Kantorovich边缘变量。正则化OT问题的对偶逼近可以通过随机梯度下降(SGD)方法有效解决
将u与v关系式和重加权距离矩阵代入式(5),得到重加权OT问题的半对偶式,即:
在这里插入图片描述

Network Re-parametrization of the Kan-torovich Potential

现有方法不直接对运输方案优化,将半对偶变量v作为优化目标。
本文中,不用向量来表示v了,用一个神经网络来表示v。本文g相当于v。
Kantorovich势网络g由三个完全连接的层组成,它将两个域的特征转换为对偶变量。由于潜在变量再参数化网络g的更新是整体模型优化之外的独立循环,因此对应的参数记为Wg,其他部分的参数记为W。
Wg变成:
在这里插入图片描述
其中
在这里插入图片描述
把对偶变量用神经网络参数化的优点是能够更有效的拟合。
将自适应加权OT问题重新表述为有限维优化问题,semi-dual中距离函数 c(.,.)为
在这里插入图片描述
其中:
在这里插入图片描述
这样,优化传输计划πε的过程转化为优化网络g的过程,g(即v)是用神经网络表示的对偶变量。对网络g进行优化后,利用当前参数Wg计算出最优传输距离Wε(µ,ν),即:
在这里插入图片描述
即semi-dual中的S,参数ε是最优运输问题中的正则化系数。
最后,通过OT距离来测量区域差异(即对准损失)为:
在这里插入图片描述

Discriminant Features Adaption and Model Optimization

目标域泛化误差的三个来源:域差异,分类器损失,理想联合假设的共享误差(通常常数)。用lce表示源域分类交叉熵损失:
在这里插入图片描述
W表示除Wg外自适应网络学习中更新的所有参数。
目标熵损失用Lt表示为:
在这里插入图片描述
其中:ytij为第i个目标样本属于第j类的概率。
整个模型的代价函数由三部分组成,分别是源分类损失Ls(W)、域适应损失Lopt(W)和目标熵损失Lt(W),可以写成
在这里插入图片描述
该模型通过最小化最优传输损失Lopt(W)来适应不同的域,并通过最小化源域Ls(W)的交叉熵损失来学习判别分类器。此外,目标熵损失Lt(W)有助于模型学习自适应分类器。参数将通过SGD方法最小化L来学习。
在这里插入图片描述
算法1总结了ETD方法的主要步骤。最优传输模块更新Wg是网络更新过程中的一个内置循环。我们以另一种方式更新自适应模型的参数W和Kantorovich潜在变量再参数化更新Wg。首先固定网络参数W,确定最优传输计划Wg,然后固定传输计划Wg,更新网络参数W。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值