用于OOD预测的稳定学习

最新推荐文章于 2024-06-09 09:45:23 发布

tzc_fly

最新推荐文章于 2024-06-09 09:45:23 发布

阅读量385

点赞数 1

分类专栏：热门话题探索文章标签：学习人工智能机器学习

本文链接：https://blog.csdn.net/qq_40943760/article/details/130673641

版权

热门话题探索专栏收录该内容

16 篇文章 0 订阅

订阅专栏

当测试数据和训练数据共享相似的分布时，基于深度神经网络的方法取得了惊人的性能，但在其他情况下可能会失败。因此，消除训练和测试数据之间分布变化的影响对于构建有前景的深度模型至关重要。作者考虑了一个更具挑战性的情况。通过训练样本的学习来消除特征之间的依赖关系，从而解决OOD问题，这有助于深度模型摆脱虚假的相关性，进而更多地关注判别特征和标签之间的真实联系。

来自：Deep stable learning for out-of-distribution generalization

fig1

图1：当大多数训练图像包含水中的狗时，ResNet-18和StableNet生成的显著性图的可视化。
显著性图的亮度指示模型对输入图像的特定区域的关注程度（即，较亮的区域比较暗的区域对预测起着更关键的作用）。由于虚假的相关性，ResNet18模型倾向于同时关注狗和水，而StableNet主要关注狗。

fig2

图2：StableNet的总体架构。LSWD是指去相关的学习样本加权。最终损失用于优化分类网络。

作者通过对样本进行全局加权来直接解除每个输入样本的所有特征相关性，从而消除相关和不相关特征之间的统计相关性，从而解决分布偏移问题。StableNet利用随机傅立叶特征（RFF）和样本加权的特性，消除了特征之间的线性和非线性依赖关系。

该文要解决的问题，就是如何在深度学习网络中找到一组样本权重，使得所有变量之间都可以做到互相独立，即任意选取一个变量为目标变量，目标变量的分布不随其它变量的值的改变而改变。

令 $X\sub \mathbb{R}^{m_X}$ 表示原始像素的空间， $Y\sub \mathbb{R}^{m_Y}$ 表示输出空间， $Z\sub\mathbb{R}^{m_Z}$ 为表征空间。 $f:X\rightarrow Z$ 为表征函数， $g:Z\rightarrow Y$ 为预测函数。假设有 $n$ 个样本， $X_{i}$ 和 $y_{i}$ 表示第 $i$ 个样本， $Z_{i:j}$ 表示第 $i$ 个样本的第 $j$ 个变量。 $w\in\mathbb{R}^{n}$ 表示样本权重， $u$ 和 $v$ 为随机傅里叶特征映射函数。

为了消除任何一对特征 $Z_{:,i}$ 和 $Z_{:,j}$ 之间的相关性，作者引入了假设检验来衡量随机变量之间的独立性。假设有两个一维随机变量 $A, B$ （ $A, B$ 代表 $Z_{:,i}$ 和 $Z_{:,j}$ 以简化描述），分别从 $A$ 和 $B$ 的分布中采样 $A_{1},A_{2},...,A_{n})$ 和 $B_{1},B_{2},...,B_{n})$ ，主要问题是这两个变量基于样本的相关性是如何的。

正定核的一个重要性质是能够产生一个内积空间的特征映射，使得在该映射下的内积运算等价于在输入空间中进行的核函数计算。

RKHS是正定核函数所对应的函数空间，它是一个希尔伯特空间（Hilbert Space），具有一些特殊的性质。在RKHS中，核函数起到了一个重要的作用，它定义了内积运算和范数，从而形成了一个完备的函数空间。

考虑在随机变量 $A$ 的域上有可测量的正定核 $k_{A}$ ，相应的RKHS由 $H_{A}$ 表示， $k_{B},H_{B}$ 同样被定义，交叉-协方差操作 $\Sigma_{AB}$ 为： $\mathbb{E}_{AB}[h_{A}(A)h_{B}(B)]-\mathbb{E}_{A}[h_{A}(A)]\mathbb{E}_{B}[h_{B}(B)]$ 其中， $h_{A}\in H_{A},h_{B}\in H_{B}$ 。然后，独立性可以由以下命题确定： $\Sigma_{AB}=0\leftrightarrow A\bot B$ 。

深度网络的各维特征间存在复杂的依赖关系，仅去除变量间的线形相关性并不足以完全消除无关特征与标签之间的虚假关联，所以一个直接的想法就是通过kernel（核方法）映射到高维空间，但是经过kernel映射后原始特征的特征图维度被扩大到无穷维，使得各维变量间的相关性无法计算。

鉴于随机傅立叶特征（Random Fourier Feature, RFF）在近似核函数以及衡量特征独立性方面的性质，采用RFF将原始特征映射到高维空间中（可以理解为在样本维度进行扩充），消除新特征间的线形相关性即可保证原始特征严格独立。

RFF的函数空间为 $H_{RFF}$ ： $H_{RFF}=\left\{h:x\rightarrow\sqrt{2}cos(wx+\phi)|w\sim N(0,1),\phi\sim Uniform(0,2\pi)\right\}$ 使用 $w$ 做样本加权，且 $\sum_{i=1}^{n}w_{i}=n$ 。加权后，变量 $A$ 和 $B$ 的交叉协方差为： $\widehat{\Sigma}_{AB;w}=\frac{1}{n-1}\sum_{i=1}^{n}[(w_{i}u(A_{i})-\frac{1}{n}\sum_{j=1}^{n}w_{j}u(A_{j}))^{T}\cdot (w_{i}v(B_{i})-\frac{1}{n}\sum_{j=1}^{n}w_{j}v(B_{j}))]\\ u(A)=(u_{1}(A),...,u_{n_{A}}(A)),u_{j}(A)\in H_{RFF}\\v(B)=(v_{1}(B),...,v_{n_{B}}(B)),v_{j}(B)\in H_{RFF}$ StableNet的目标是独立任何一对特征： $w^{*}=argmin_{w\in\Delta_{n}}\sum_{1\leq i\leq j\leq m_{Z}}||\widehat{\Sigma}_{Z_{:,i}Z_{:,j};w}||_{F}^{2}$ 其中， $\Delta_{n}=\left\{w\in R^{n}|\sum_{i=1}^{n}w_{i}=n\right\}$ 因此，用最优 $w^*$ 对训练样本进行加权可以最大限度地减轻特征之间的依赖性。

算法迭代优化样本权重 $w$ 、表示函数 $f$ 和预测函数 $g$ ，如下所示： $f^{(t+1)},g^{(t+1)}=argmin_{f,g}\sum_{i=1}^{n}w^{(t)}_{i}L(g(f(X_{i})),y_{i})\\ w^{(t+1)}=argmin_{w\in\Delta_{n}}\sum_{1\leq i\leq j\leq m_{Z}}||\widehat{\Sigma}_{Z_{:,i}^{(t+1)}Z_{:,j}^{(t+1)};w}||_{F}^{2}$ 其中， $Z^{(t+1)}=f^{(t+1)}(X)$ ， $L$ 表示交叉熵损失， $t$ 为时间步，初始 $w^{(0)}=(1,1,...,1)^{T}$ 。

上述公式要求在训练过程中为每个训练样本都学习一个特定的权重，但在实践中，尤其对于深度学习任务，要想利用全部样本全局地学习样本权重需要巨大的计算和存储开销。此外，使用SGD对网络进行优化时，每轮迭代中仅有部分样本对模型可见，因此无法获取全部样本。

作者提出一种存储、重加载样本特征与样本权重的方法，在每个训练迭代的结束融合并保存当前的样本特征与权重，在下一个训练迭代开始时重加载，作为训练数据的全局先验知识优化新一轮的样本权重。

对于每个batch，用于优化样本权重的特征生成如下： $Z_{O}=Concat(Z_{G_{1}},Z_{G_{2}},...,Z_{G_{k}},Z_{L})\\ w_{O}=Concat(w_{G_{1}},w_{G_{2}},...,w_{G_{k}},w_{L})$ 这里，符号 $Z_{O}$ 和 $w_{O}$ 分别表示用于优化新样本权重的特征和权重， $Z_{G_{1}},Z_{G_{2}},...,Z_{G_{k}}$ 和 $w_{G_{1}},w_{G_{2}},...,w_{G_{k}}$ 分别为全局特征和权重，其在每个批次结束时更新并且表示整个训练数据集的全局信息。 $Z_L$ 和 $w_L$ 是当前batch中的特征和权重，表示局部信息。

用于合并上式中的所有特征的操作是沿着样本的级联，比如，如果batch size为 $B$ ， $Z_{O}$ 为矩阵，size是 $((k+1)B)\times m_{Z}$ ， $w_{O}$ 是 $((k + 1) B)$ 维的向量，在对每个batch训练时，保持 $w_{G_{i}}$ 固定，只有 $w_{L}$ 是可学习的。在每次迭代训练结束时，融合全局信息 $Z_{G_{i}},w_{G_{i}})$ 和局部信息 $Z_{L},w_{L})$ ： $Z'_{G_{i}}=\alpha_{i} Z_{G_{i}}+(1-\alpha_{i})Z_{L}\\w'_{G_{i}}=\alpha_{i} w_{G_{i}}+(1-\alpha_{i})w_{L}$ 对于每组全局信息 $Z_{G_{i}},w_{G_{i}})$ ，我们使用 $k$ 个不同的平滑参数以考虑long-term memory（ $\alpha_{i}$ 较大），和short-term memory（ $\alpha_{i}$ 较小）， $k$ 表示预测特征是原始特征的 $k$ 倍。然后，用 $Z'_{G_{i}},w'_{G_{i}})$ 代替所有 $Z_{G_{i}},w_{G_{i}})$ 作为下一batch。