域泛化与不变性风险最小化

诗弈羽弦

已于 2023-01-15 13:06:59 修改

阅读量500

点赞数 1

分类专栏：人工智能文章标签：人工智能深度学习数据分析

于 2023-01-15 13:04:57 首次发布

本文链接：https://blog.csdn.net/qq_58005450/article/details/128693588

版权

人工智能专栏收录该内容

1 篇文章 0 订阅

订阅专栏

域泛化与不变性风险最小化

论文链接：https://arxiv.org/abs/1907.02893

1. 域泛化

给定源数据集 $\mathcal{E}^s=\{e_1^s,\cdots,e_m^s\}$ ，与目标数据集 $\mathcal{E}^t=\{e_1^t,\cdots,e_n^t\}$ ，每个 $e$ 代表一个域或者环境。

同一环境下的样本与标签 $(X, Y)$ 服从同一分布；不同环境下的 $(X, Y)$ 服从不同分布，记作

$(X_i^s,Y_i^s)\sim P_i^s(X,Y)\quad i=1,\cdots,m;\\ (X_j^t,Y_j^t)\sim P_j^t(X,Y)\quad j=1,\cdots,n;\tag{1}$

其中的概率分布 $P_i^s(X,Y),P_j^t(X,Y)$ 各不相同。

域泛化可以理解为：通过学到 $P^s_i$ 中的分布，去尽可能模拟 $P_j^t$ 的分布，思路的可行性是因为不同域中实际上存在公共信息，我们需要去学到这些公共信息

2. 不变性风险最小化

简单来讲，是指在训练集中的所有域下，存在某个风险最小化的共同最优解

我们将整个网络模型表示为： $w\circ \Phi:\mathcal{X}\to\mathcal{Y}$

其中 $\Phi:\mathcal{X}\to\mathcal{H}$ 为数据表示representation， $w:\mathcal H\to\mathcal Y$ 为不变性因子invariance

记域或环境 $e$ 中的风险函数为 $R^e(w\circ \Phi)$ ，对于一般的学习模型，经验风险最小化表示为

$\min_{\Phi,w}\quad\sum_{e\in\mathcal E^s}R^e(w\circ \Phi)\tag{ERM}$

而不变性风险最小化表示为

$\begin{aligned} \min_{\Phi,w}\quad&\sum_{e\in\mathcal E^s}R^e(w\circ \Phi)\\ s.t.\quad&w\in\bigcap_{e\in\mathcal E^s}\arg\min_{w}R^e(w\circ\Phi) \end{aligned}\tag{IRM}$

也就是在 $(ERM)$ 的基础上添加了约束条件

但是双优化问题在实际过程中是很难交给计算机处理的，尤其是在数据规模较大的情况下

根据个人理解，考虑到了一个非常通俗的数学知识

可微函数在某区域内的极值点一定是边界点或者驻点

所以第一步是将上述条件放宽为

$\begin{aligned} \min_{\Phi,w}\quad&\sum_{e\in\mathcal E^s}R^e(w\circ \Phi)\\ s.t.\quad&w\in\bigcap_{e\in\mathcal E^s}\{w:\nabla_wR^e(w\circ \Phi)=\boldsymbol{0}\} \end{aligned}\tag{2}$

第二步将约束条件换为惩罚项，改为

$\min_{\Phi,w}\quad\sum_{e\in\mathcal E^s}R^e(w\circ \Phi)+\lambda||\nabla_wR^e(w\circ \Phi)||^2\tag{3}$

最后固定 $w = 1.0$ ，得到论文中的实用公式

$\min_{\Phi}\quad\sum_{e\in\mathcal E^s}R^e(\Phi)+\lambda||\nabla_{w|w=1.0}R^e(w\circ \Phi)||^2\tag{IRMv1}$

实验中也是用的这个公式，在colored_mnist实验中，有代码

def penalty(logits, y):
	scale = torch.tensor(1.).cuda().requires_grad_()
    loss = mean_nll(logits * scale, y)
    grad = autograd.grad(loss, [scale], create_graph=True)[0]
    return torch.sum(grad**2)