Blind Domain Adaptation
在实际应用中,测试数据通常与训练数据有不一样的分布,这种分布差异会降低训练好的模型在测试的效果。Domain Adaptation(域自适应)是解决这个问题的一种方法,但是目前大部分的域自适应方法是将不带标签目标域数据添加到源域数据集中一起对模型进行训练,训练的目标是在减小源域与目标域之间的分布差异的基础上提高对源域数据的预测准确率。但是,有时候我们是无法获取到目标域的数据,或者当我们将模型应用于一个新的情景下时,这两种情况都说明通过将不带标签的目标域数据加入训练是存在不足之处的。针对这种问题,Blind Domain Adaptation(BDA)被提出,该方法在训练期间仅使用源域数据。
Domain Adaptation研究介绍
(本节是参考Muhammad Uzair和Ajmal Mian2017年所发表的论文)
Domain Adaptation是计算机视觉研究领域的一个受关注的研究点,对于博客开头所提出的问题,很多研究者也提出了解决的方法,早在2011年,Mirrashed便已经发表一篇关于使用无标签数据进行域自适应的综述,该论文中详细论述了域自适应问题和当时所提出的解决办法;除此之外,迁移学习也是实现域自适应的一个重要方法,且目前很多研究者也是在迁移学习的基础上进行改进以获得更好的域自适应效果。
在域自适应方法中,一个常用的策略是通过对源域和目标域的数据进行转换,转换的目的是减小两者之间分布差异,该策略的实现主要有两者,分别是子空间学习(Subspace Learning)和示例权重再调整(Instance Reweighting)。Subspace Learning方法的目的是找到一个源域与目标域共享的特征空间,在该特征空间中,两个域具有相似的分布。而Instance Reweighting 是对源域的样本进行权重调整,并使用调整后的样本进行训练以达到减小分布差异的效果。除了数据转换,还有直接将分布自适应与分类器两者直接结合,使用一个模型来实现域自适应,由于该方法是直接在模型中实现数据转换的,因此不会改变特征的空间。
为进一步解决现实中遇到的问题,许多研究者开始对在不使用目标域数据的情况下实现域自适应进行研究,如利用与自学习相似的策略实现域自适应。
基于增强极限学习机的BDA
2017年Muhammad Uzair和Ajmal Mian提出使用增强极限学习机特征来实现Blind Domain Adaptation,该方法仅使用源域数据集学习,其模型分为全局ELM(Extreme Learning Machine)和局部ELM,并且两个ELM模型在训练和测试阶段具有不同的作用。
ELM(Extreme Learning Machines)
对于{X,T}
∈
\in
∈{x
j
_j
j,t
j
_j
j}
j
=
1
N
^N_{j=1}
j=1N,x
j
∈
R
d
_j\in R^d
j∈Rd,t
j
∈
R
q
_j\in R^q
j∈Rq定义一个单隐层前馈网络作为回归模型,其模型如下:
∑
i
=
1
n
h
β
i
g
(
w
i
T
x
j
+
b
i
)
\begin{matrix} \sum_{i=1}^{n_h} \beta_ig(w_i^Tx_j+b_i) \end{matrix}
∑i=1nhβig(wiTxj+bi)
其中
w
i
∈
R
d
w_i\in R^d
wi∈Rd,
b
i
∈
R
1
b_i\in R^1
bi∈R1,
β
i
∈
R
q
\beta_i\in R^q
βi∈Rq,
g
(
u
)
=
(
1
/
(
1
+
e
−
u
)
)
g(u)=(1/(1+e^{-u}))
g(u)=(1/(1+e−u))
根据ELM的原理,从输入
x
j
x_j
xj到隐藏层的参数{
w
i
,
b
i
w_i,b_i
wi,bi}
i
=
1
n
h
^{n_h}_{i=1}
i=1nh是随机生成的,这是ELM与其他学习算法不同之处,随机参数生成就使得隐藏层将输入映射到一个随机特征空间,而ELM模型真正要学习的参数只有
β
i
\beta_i
βi,而该参数的最佳值通过正则最小方差获得,其损失函数如下
min
B
∈
R
n
h
×
q
1
2
∣
∣
B
∣
∣
+
C
2
∑
j
=
1
N
∣
∣
e
j
∣
∣
2
2
\min_{B\in R^{n_h\times q}}\frac{1}{2}||B||+\frac{C}{2}\sum^N_{j=1}||e_j||^2_2
B∈Rnh×qmin21∣∣B∣∣+2Cj=1∑N∣∣ej∣∣22
s
.
t
.
Ψ
(
x
j
)
B
=
t
j
T
−
e
j
T
,
j
=
1
,
,
,
,
,
,
N
s.t.\ \Psi (x_j)B=t^T_j-e^T_j,j=1,,,,,,N
s.t. Ψ(xj)B=tjT−ejT,j=1,,,,,,N
其中第一项是为了防止过拟合以及训练后期模型变化过大,第二项是模型预测的误差。
ELM-AE(自编码极限学习机)
在极限学习机的基础上加入自编码学习机制,有三个优点:1、在无先验假设的情况下学习非线性数据结构;2、训练效率高;3、具有良好的泛化能力。其分为三步,如下图所示,自编码极限学习实现的具体细节看论文。
Feature Augmentation via ELM-AE for BDA
BDA就是在不对目标域进行观测的前提下,通过对源域数据进行学习得到对目标域进行预测的分类器,其算法说明如下图所示,
训练
- Global ELM-AE: L z = W z 1 , W z 2 L_z=W^1_z,W^2_z Lz=Wz1,Wz2:编码源域信息,获得改造的特征,因此全局极限学习自编码模型包含源域信息。
- Class Specific ELM-AEs:将改造后的特征,通过指定类的ELM-AE学习,得到每个类别的ELM-AE。由于Class Specific ELM-AEs模型的 W z 1 W^1_z Wz1是直接使用Global ELM-AE的 W z 1 W^1_z Wz1,因此类极限学习自编码模型既包含源域信息也包含类别信息。
- 训练的策略即按照极限学习原理即可。
测试
- 使用Global ELM-AE对目标输入进行特征重构
- 通过增强丰富特征
- 使用Class Specific ELM-AE获得 Z ^ t j \hat Z^j_t Z^tj,并通过二范数计算误差 e ( j ) = ∣ ∣ z t − z ^ t j ∣ ∣ 2 e(j)=||z_t-\hat z^j_t||_2 e(j)=∣∣zt−z^tj∣∣2 y t = a r g m i n e ( j ) y_t=arg\ min\ e(j) yt=arg min e(j)
之后计划
对Yang Fuen等提出的M2RD方法进行阅读,并对其论文中提到的Unpaired data方法进行总结与对比。
参考文献
Uzair, M. and A. Mian (2017). “Blind Domain Adaptation With Augmented Extreme Learning Machine Features.” Ieee Transactions on Cybernetics 47(3): 651-660.