【人工智能概论】 Python标准库——dalib（领域自适应）

本文链接：https://blog.csdn.net/qq_44928822/article/details/131315718

文章介绍了Python库dalib中的几个核心模块，包括用于区分源域和目标域的领域鉴别器DomainDiscriminator，领域对抗损失DomainAdversarialLoss，以及高斯核GaussianKernel和多核最大均值差异MK-MMD在适应性学习中的应用。这些工具在减少跨域数据差异和提升模型泛化能力方面起到关键作用。

摘要由CSDN通过智能技术生成

【人工智能概论】 Python标准库——dalib（领域自适应）

一. 领域鉴别器（DomainDiscriminator）

dalib.modules.domain_discriminator.DomainDiscriminator(in_feature: int, hidden_size: int)

功能：区分输入的特征是来自源域还是目标域，源域标签为1，目标域标签为0。
参数：

in_feature（int）：输入特征的维度；
hidden_size（int）：隐层特征的维度。

形状：

inputs：（minibatch， in_feature）；
outputs：（minibatch， 1）。

举例：

见领域对抗损失（DomainAdversarialLoss）的举例。

二. 领域对抗损失（DomainAdversarialLoss）

dalib.adaptation.dann.DomainAdversarialLoss(domain_discriminator: torch.nn.modules.module.Module, reduction: Optional[str]= 'mean')

定义： $Loss(D_{s},D_{t})=E_{x_{i}^{s}\frown D_{s}}log[D(f_{i}^{s})]+E_{x_{j}^{t}\frown D_{t}}log[1-D(f_{j}^{t})]$ 其中，D是领域鉴别器，f是领域的特征。
参数：

domain_discriminator（nn.Module）：域鉴别器对象，用于预测特征的域；
reduction（string，Optional）：指定输出损失的方式，‘none’， ‘sum’，‘mean’，其中’none’指不使用任何降维直接输出，‘sum’、'mean’分别是对损失求和、求均值，默认为求均值。

输入：

f_s （tensor）：源域的特征 $f^{s}$ ；
f_t （tensor）：目标域的特征 $f^{t}$ 。

形状：

f_s， f_t ：（N, F）F是输入特征的维度；
outputs ：默认是标量，但如果reduction是’none’输出的形状是（N，）。

举例：

from dalib.modules.domain_discriminator import DomainDiscriminator
from dalib.adaptation.dann import DomainAdversarialLoss

discriminator = DomainDiscriminator(in_feature= 1024, hidden_size= 2048)
loss = DomainAdversarialLoss(discriminator, reduction= 'mean')

f_s, f_t = torch.rand(20, 1024), torch.rand(20, 1024)
output = loss(f_s, f_t)

print(output)

在这里插入图片描述

三. 高斯核（GaussianKernel）

dalib.modules.kernels.GaussianKernel(sigma: Optional[float] = None, track_running_stats: Optional[bool] = True, alpha: Optional[float] = 1.0)

定义：

高斯核 $k$ 的定义： $k(x_{1},x_{2})=exp(-\frac{\left \| x_{1}-x_{2} \right \|^{2} }{2\sigma ^{2}} )$ 其中 $x_{1},x_{2}\in R^{d}$ 是一维张量。
高斯核矩阵 $K$ 被定义在 $X=(x_{1},x_{2},...x_{m})$ 上： $K(x)_{i,j} = k(x_{i},x_{j})$
在运算中 $\sigma ^{2}$ 有两种确认方法：
第一种通过下式计算动态获得： $\sigma ^{2} = \frac{\alpha }{n^{2}}\sum _{i,j}\left \| x_{i}-x_{j} \right \| ^{2}$
第二种是直接给定数值。

参数：

sigma(float, optional)：即 $\sigma$ ，默认为None；
track_running_stats(bool, optional)：如果是’True’则用前面的公式计算 $\sigma^{2}$ ，若为’False’则使用固定的 $\sigma^{2}$ ，默认为’True’；
alpha(float, optional)：当track_running_stats为’True’时为计算 $\sigma^{2}$ 提供 $\alpha$ 。

输入：

X(tensor)：输入组X。

形状：

inputs：(minibatch, F) ， F是输入特征的维数；
outputs：(minibatch, minibatch) 。

四. 多核最大均值差异（MK-MMD）

dalib.adaptation.dan.MultipleKernelMaximumMeanDiscrepancy（kernels: Sequence[torch.nn.modules.module.Module], Linear: Optional[bool]= False, quadratic_program: Optional[bool]= False）

MK-MMD：

源域为： $D_{s}= \left \{ (x_{i}^{s},y_{i}^{s}) \right \}_{i=1}^{n_{s}}$
目标域： $D_{t}= \left \{ x_{j}^{t} \right \}_{j=1}^{n_{t}}$
它们各自的样本间都符合独立同分布；

则MK-MMD的计算公式为： $d_{MK-MMD}(D_{s},D_{t})=\left \| E_{s}[g(D_{s})]-E_{t}[g(D_{t})] \right \| ^{2}_{H_{k}}$
$H_{k}$ 表示具有特定内核 $k$ 的 $R KH S$ ， $g (*)$ 是与核函数相关的连续映射， $E [*]$ 是给定分布的期望；

应当注意的是，核函数 $k$ 是被定义为 $r$ 个不同的半正定核的凸组合，如下形式： $k(x^{s},x^{t})= {\textstyle \sum_{i=1}^{r}}\beta _{i}k_{i}(x^{s},x^{t})$
其中： ${\textstyle \sum_{i}^{r}}\beta _{i}=1,\beta _{i}\ge 0$
所谓半正定性是核函数的常见的性质（可以联系SVM中的相关概念学习），凸组合是一种线性组合，若满足 $\lambda _{i}\ge 0，{\textstyle \sum_{i}^{r}}\lambda _{i}=1$ 则 ${\textstyle \sum_{i}^{r}}\lambda _{i}x_{i}$ 即为凸组合；

使用内核技巧，MK-MMD可以简化计算为： $\hat{D}_{k}(D_{s},D_{t})= \frac{1}{n_{s}^{2}} {\textstyle \sum_{i=1}^{n_{s}}} {\textstyle \sum_{j=1}^{n_{s}}} k(D_{s}^{i},D_{s}^{j}) +\frac{1}{n_{t}^{2}} {\textstyle \sum_{i=1}^{n_{t}}} {\textstyle \sum_{j=1}^{n_{t}}} k(D_{t}^{i},D_{t}^{j}) -\frac{2}{n_{s}n_{t}} {\textstyle \sum_{i=1}^{n_{s}}} {\textstyle \sum_{j=1}^{n_{t}}} k(D_{s}^{i},D_{t}^{j})$

参数：

Kernel(tuple(nn.Module))：核方程；
Linear(bool)：是否使用DAN的线性版本，默认不用；
quadratic_program(bool)：是否使用二次规划求解 $\beta$ ，默认不用。

输入：

d_s(tensor)：源域通过映射所得的特征 $D_{s}$ ；
d_t(tensor)：目标域通过映射所得的特征 $D_{t}$ 。
注意它俩必须相同的形状。

形状：

inputs： (minibatch, *) *代表任意数，实际上就是传入的特征维度；
outputs：标量。

举例：

from dalib.modules.kernels import GaussianKernel
from dalib.adaptation.dan import MultipleKernelMaximumMeanDiscrepancy

feature_dim = 1024
batch_size = 10

kernels = (GaussianKernel(alpha=0.5), GaussianKernel(alpha=1.), GaussianKernel(alpha=2.))
loss = MultipleKernelMaximumMeanDiscrepancy(kernels)

# features from source domain and target domain
z_s, z_t = torch.randn(batch_size, feature_dim), torch.randn(batch_size,feature_dim)
output = loss(z_s, z_t)

print(output)

在这里插入图片描述