orthogonal regulatization 正交规范化

最新推荐文章于 2022-09-19 23:11:08 发布

月下花弄影

最新推荐文章于 2022-09-19 23:11:08 发布

阅读量7.4k

点赞数 7

分类专栏：数学理论 GAN GAN之基础理论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27261889/article/details/86608525

版权

数学理论同时被 3 个专栏收录

15 篇文章

订阅专栏

GAN之基础理论

9 篇文章

订阅专栏

8 篇文章

订阅专栏

本文探讨了正交规范化(orthogonal regularization)在深度学习中的作用,特别是在卷积神经网络(CNN)中。该方法通过保持卷积核参数的正交性,有助于稳定梯度,防止梯度爆炸和梯度消失现象。文章介绍了该方法的起源、原理及其实现方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这个方法现在被很多文章应用。本文就讲讲这个orthogonal regularization，可以翻译成正交规范化。

这个方法首先出现在这篇文章里：LCLR2017文章，2018年，也出现于BigGAN。

最开始，2014年只是在初始化的时候让卷积核参数都是正交的。而orthogonal regularization认为参数如果一直保持正交特性将会发挥作用。

为什么要用正交规范化？

在神经网络中，我们都会有矩阵乘法，即使是卷积神经网络CNN中。

正交阵的好处是，如果一个矩阵与一个正交阵相乘，这个矩阵的范数不会变化。（这里不证明）

正交阵的这个特性在梯度反向传播时有一定好处，特别是梯度爆炸和梯度消散的情况。

为什么矩阵范数不变会有助于梯度爆炸或梯度消散呢？

我们举个例子，就拿L2范数来说，L2范数等于矩阵所有元素的平方和的平方根。

我们如果能让卷积核这个矩阵是正交阵，那么特征图这个矩阵的范数就不变了。于是特征图的L2范数不变化，进而使得前后特征图的最大值都不会很大。而梯度反向传播时权重的梯度会用到输入并与之相乘，当然这有助于梯度爆炸。输入值也不会变得越来越小，这样也有助于梯度的保持（不考虑梯度越往后本身就越小，只考虑因为要与输入相乘这个因素）

关于为何保证范数就可以缓解梯度消失和爆炸，现在也还没有完全分析透彻。BigGAN文章中就试图用谱范数来追踪GAN的模型塌陷。

因此，**我们希望在运行过程中，卷积核是一个正交阵。**保持特征图的范数。

如何运用？

正交阵的一个条件是： $W^TW=I$ 其中， $W$ 就是正交阵， $I$ 是单位阵。

但是，实际过程中，卷积核 $W$ 并不是一个正交阵，因此等式 $W^TW-I$ 是一个非0矩阵。可以认为非0元素越多，我们越不喜欢这个卷积核。因此，我们求这个等式的某一范数，并认为这个范数是损失，加到总的损失中。
如上面给出的链接中2017年LCLR文章就是使用了L1范数作为损失。就是对每个元素取绝对值，然后求和。
在这里插入图片描述
BigGAN做了一些改进。它不使用L1范数，而是L2范数。并且认为对角线上有其他约束。下式中， $1$ 矩阵表示每个元素都为1.

参考链接：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。