UDA一致正则化和熵最小化

2021SC@SDUSC

Consistency Regularization 一致性正则化

在监督学习中,一种常见的正则化技术是数据增强,它应用于对输入进行转换,同时假定这种转换不影响类语义分类。例如,在图像分类中,输入图像通常会发生弹性变形或添加噪声,这可以在不改变图像标签的情况下显著改变图像的像素内容。粗略地说,这可以通过近乎无限生产新数据或者说修改数据,人为地扩大了训练集的大小。一致性正则化将数据增强应用于半监督学习,它利用了这样一种思想 : 即使对未标记的示例进行了增强,分类器也应该输出相同的类分布。更正式地说,一致性正则化强制未标记的示例x应该与Augment(x)归为一类,其中Augment©是一个随机数据增强函数,类似于随机空间平移或添加噪声。

最简单的例子,Π-Model,也叫做带有随机变化和扰动项的正则化,将下列式子加入了损失函数

对于未标记的x数据点,我们需要注意:Augment(x) 是一个随机变换,所以上式中Augment(x)中的两项是不相同的。该方法通过旋转、剪切、加性高斯噪声等复杂的增强过程,应用于图像分类基准。例如,“Mean teacher” 将上式中的一项替换为模型的输出,这个模型利用了模型中参数的指数移动平均。这提供了一个更稳定的目标,并在实践中发现显著改善结果。这些方法的一个缺点是,它们使用领域特定的数据增强策略. “虚拟对抗性训练。VAT(Virtual Adversarial Training)解决这个问题的方法是,计算一个加性扰动来应用于最大程度地改变输出类分布的输入。MixMatch通过对图像使用标准数据增强,利用了一致性正则化的一种形式。 

Entropy Minimization/ Entropy regularization 熵最小化

在许多半监督学习方法中,一个常见的基本假设是分类器的决策边界不应该通过边缘数据分布的高密度区域。实现这一点的一种方法是要求分类器对未标记的数据输出低熵预测。

  • 这是在显式地通过简单地添加一个损失项来实现的,该损失项使Pmodel(y | x;0)未标注数据,这种形式的熵最小化与VAT相结合,得到了更强的结果 (VAT)
  • ‘Pseudo-Label 伪标签’ 通过对未标记数据的高置信度预测构建硬标签,并在标准的交叉熵损失中使用这些硬标签作为训练目标,隐式地实现了熵的最小化 (Pseudo-Label, 2013) Pseudo-Label:深度学习中一种简单有效的半监督方法
  • MixMatch还通过对未标记数据的目标分布使用“锐化”函数隐式地实现熵的最小化 (sharpen)

 


if size_average is not None or reduce is not None:
        reduction = _Reduction.legacy_get_string(size_average, reduce)
    return nll_loss(log_softmax(input, 1), target, weight, None, ignore_index, None, reduction)
工具代码

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值