UDA一致正则化和熵最小化

最新推荐文章于 2024-05-30 18:05:01 发布

brave_Wei

最新推荐文章于 2024-05-30 18:05:01 发布

阅读量2.7k

点赞数

分类专栏：软件工程应用与实践笔记文章标签： python

本文链接：https://blog.csdn.net/m0_53444618/article/details/122163086

版权

笔记同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

软件工程应用与实践

4 篇文章 0 订阅

订阅专栏

2021SC@SDUSC

Consistency Regularization 一致性正则化

在监督学习中，一种常见的正则化技术是数据增强，它应用于对输入进行转换，同时假定这种转换不影响类语义分类。例如，在图像分类中，输入图像通常会发生弹性变形或添加噪声，这可以在不改变图像标签的情况下显著改变图像的像素内容。粗略地说，这可以通过近乎无限生产新数据或者说修改数据，人为地扩大了训练集的大小。一致性正则化将数据增强应用于半监督学习，它利用了这样一种思想 : 即使对未标记的示例进行了增强，分类器也应该输出相同的类分布。更正式地说，一致性正则化强制未标记的示例x应该与Augment(x)归为一类，其中Augment©是一个随机数据增强函数，类似于随机空间平移或添加噪声。

最简单的例子，Π-Model，也叫做带有随机变化和扰动项的正则化，将下列式子加入了损失函数

对于未标记的x数据点，我们需要注意：Augment(x) 是一个随机变换，所以上式中Augment(x)中的两项是不相同的。该方法通过旋转、剪切、加性高斯噪声等复杂的增强过程，应用于图像分类基准。例如，“Mean teacher” 将上式中的一项替换为模型的输出，这个模型利用了模型中参数的指数移动平均。这提供了一个更稳定的目标，并在实践中发现显著改善结果。这些方法的一个缺点是，它们使用领域特定的数据增强策略. “虚拟对抗性训练。VAT（Virtual Adversarial Training）解决这个问题的方法是，计算一个加性扰动来应用于最大程度地改变输出类分布的输入。MixMatch通过对图像使用标准数据增强，利用了一致性正则化的一种形式。

Entropy Minimization/ Entropy regularization 熵最小化

在许多半监督学习方法中，一个常见的基本假设是分类器的决策边界不应该通过边缘数据分布的高密度区域。实现这一点的一种方法是要求分类器对未标记的数据输出低熵预测。

这是在显式地通过简单地添加一个损失项来实现的，该损失项使Pmodel(y | x;0)未标注数据,这种形式的熵最小化与VAT相结合，得到了更强的结果（VAT）
‘Pseudo-Label 伪标签’ 通过对未标记数据的高置信度预测构建硬标签，并在标准的交叉熵损失中使用这些硬标签作为训练目标，隐式地实现了熵的最小化（Pseudo-Label, 2013） Pseudo-Label:深度学习中一种简单有效的半监督方法
MixMatch还通过对未标记数据的目标分布使用“锐化”函数隐式地实现熵的最小化（sharpen）


if size_average is not None or reduce is not None:
        reduction = _Reduction.legacy_get_string(size_average, reduce)
    return nll_loss(log_softmax(input, 1), target, weight, None, ignore_index, None, reduction)
工具代码