MMA正则化：神经网络去相关性的正则化

AITIME论道

于 2021-01-07 18:09:03 发布

阅读量5k

点赞数 1

文章标签：神经网络算法 python 计算机视觉机器学习

本文链接：https://blog.csdn.net/AITIME_HY/article/details/112343320

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

神经元或卷积核之间的强相关性会大幅削弱神经网络的泛化能力。本文提出使归一化后的权重向量在单位超球面上尽可能分布均匀，从而减弱其相关性。而著名的Tammes Problem是均匀分布的评判标准之一。

本文从分析Tammes Problem出发，提出一种针对任意维度d和任意点数n的Tammes Problem的数值求解方法。进而将该方法应用到神经网络中，提出了一种新颖的神经网络正则化方法，减弱神经元或卷积核之间的相关性。

由于该方法使同层中的权重向量之间的最小夹角最大化（Maximizing the Minimal Angle），因此简称为MMA。MMA正则化形式简单、计算复杂度低、效果明显，因此，可以作为神经网络模型的基本正则化策略。本文通过大量的实验，证实了MMA正则化的有效性和广泛适用性。

王振楠：2020年博士毕业于深圳大学。博士期间研究课题为深度神经网络的角度正则化及其视觉应用，聚焦于深度学习的基础性研究，如正则化、归一化等，先后在ICCV和NeurIPS两个计算机领域顶级会议上发表论文。

一、背景

本次分享内容主要是一种新颖的正则化方法，最小夹角最大化（Maximizing the Minimal Angle），因此简称为MMA。这个正则化的目的是使神经网络中的权重去相关性。

神经网络中权重向量的相关性过高的现象引起了很多的关注，很多论文对这一现象进行了讨论，这会造成模型的泛化性能降低，以下通过一个实验来说明这个问题的影响。

在CIFAR100中训练好的VGG19-BN，经过探究可以发现在很多层中，其权重向量相关性比较高，甚至会达到重合的程度，这里可视化了第一层的权重向量。可以看到左图中具有很多红色的点，其代表余弦为1，即夹角为0，表明其基本重合。这种现象会造成泛化性的降低。通过右边的示意图进一步的解释，如果权重向量相关性比较高，即W2、W1、W12基本上重合，那么和数据向量X内积之后数值接近。进一步的，在这种情况下这一层的计算得到的向量会有很多值非常接近，即表达能力变弱，对于整体模型而言就是泛化能力降低。

既然这个问题已经被研究了如此之久，那么如何解决也是有过很多尝试的，现有解决方案基本上可以分为这三类，第一类是正交正则化，第二类是使用复杂训练方式，第三类是最小化势能函

最低0.47元/天解锁文章

AITIME论道

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MMA正则化：神经网络去相关性的正则化

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！神经元或卷积核之间的强相关性会大幅削弱神经网络的泛化能力。本文提出使归一化后的权重向量在单位超球面上尽可能分布均匀，从而减弱其相...
复制链接

扫一扫