点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
神经元或卷积核之间的强相关性会大幅削弱神经网络的泛化能力。本文提出使归一化后的权重向量在单位超球面上尽可能分布均匀,从而减弱其相关性。而著名的Tammes Problem是均匀分布的评判标准之一。
本文从分析Tammes Problem出发,提出一种针对任意维度d和任意点数n的Tammes Problem的数值求解方法。进而将该方法应用到神经网络中,提出了一种新颖的神经网络正则化方法,减弱神经元或卷积核之间的相关性。
由于该方法使同层中的权重向量之间的最小夹角最大化(Maximizing the Minimal Angle),因此简称为MMA。MMA正则化形式简单、计算复杂度低、效果明显,因此,可以作为神经网络模型的基本正则化策略。本文通过大量的实验,证实了MMA正则化的有效性和广泛适用性。
王振楠:2020年博士毕业于深圳大学。博士期间研究课题为深度神经网络的角度正则化及其视觉应用,聚焦于深度学习的基础性研究,如正则化、归一化等,先后在ICCV和NeurIPS两个计算机领域顶级会议上发表论文。
一、背景
本次分享内容主要是一种新颖的正则化方法,最小夹角最大化(Maximizing the Minimal Angle),因此简称为MMA。这个正则化的目的是使神经网络中的权重去相关性。
神经网络中权重向量的相关性过高的现象引起了很多的关注,很多论文对这一现象进行了讨论,这会造成模型的泛化性能降低,以下通过一个实验来说明这个问题的影响。
在CIFAR100中训练好的VGG19-BN,经过探究可以发现在很多层中,其权重向量相关性比较高,甚至会达到重合的程度,这里可视化了第一层的权重向量。可以看到左图中具有很多红色的点,其代表余弦为1,即夹角为0,表明其基本重合。这种现象会造成泛化性的降低。通过右边的示意图进一步的解释,如果权重向量相关性比较高,即W2、W1、W12基本上重合,那么和数据向量X内积之后数值接近。进一步的,在这种情况下这一层的计算得到的向量会有很多值非常接近,即表达能力变弱,对于整体模型而言就是泛化能力降低。
既然这个问题已经被研究了如此之久,那么如何解决也是有过很多尝试的,现有解决方案基本上可以分为这三类,第一类是正交正则化,第二类是使用复杂训练方式,第三类是最小化势能函