MMA正则化:神经网络去相关性的正则化

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

神经元或卷积核之间的强相关性会大幅削弱神经网络的泛化能力。本文提出使归一化后的权重向量在单位超球面上尽可能分布均匀,从而减弱其相关性。而著名的Tammes Problem是均匀分布的评判标准之一。

本文从分析Tammes Problem出发,提出一种针对任意维度d和任意点数n的Tammes Problem的数值求解方法。进而将该方法应用到神经网络中,提出了一种新颖的神经网络正则化方法,减弱神经元或卷积核之间的相关性。

由于该方法使同层中的权重向量之间的最小夹角最大化(Maximizing the Minimal Angle),因此简称为MMA。MMA正则化形式简单、计算复杂度低、效果明显,因此,可以作为神经网络模型的基本正则化策略。本文通过大量的实验,证实了MMA正则化的有效性和广泛适用性。

王振楠:2020年博士毕业于深圳大学。博士期间研究课题为深度神经网络的角度正则化及其视觉应用,聚焦于深度学习的基础性研究,如正则化、归一化等,先后在ICCV和NeurIPS两个计算机领域顶级会议上发表论文。

一、背景

本次分享内容主要是一种新颖的正则化方法,最小夹角最大化(Maximizing the Minimal Angle),因此简称为MMA。这个正则化的目的是使神经网络中的权重去相关性。

神经网络中权重向量的相关性过高的现象引起了很多的关注,很多论文对这一现象进行了讨论,这会造成模型的泛化性能降低,以下通过一个实验来说明这个问题的影响。

在CIFAR100中训练好的VGG19-BN,经过探究可以发现在很多层中,其权重向量相关性比较高,甚至会达到重合的程度,这里可视化了第一层的权重向量。可以看到左图中具有很多红色的点,其代表余弦为1,即夹角为0,表明其基本重合。这种现象会造成泛化性的降低。通过右边的示意图进一步的解释,如果权重向量相关性比较高,即W2、W1、W12基本上重合,那么和数据向量X内积之后数值接近。进一步的,在这种情况下这一层的计算得到的向量会有很多值非常接近,即表达能力变弱,对于整体模型而言就是泛化能力降低。

既然这个问题已经被研究了如此之久,那么如何解决也是有过很多尝试的,现有解决方案基本上可以分为这三类,第一类是正交正则化,第二类是使用复杂训练方式,第三类是最小化势能函

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值