深度学习权重初始化为什么要用正态分布

最新推荐文章于 2022-04-13 23:40:01 发布

冬虫夏草1993

最新推荐文章于 2022-04-13 23:40:01 发布

阅读量5.8k

点赞数 7

分类专栏：深度学习文章标签：深度学习正态分布权重初始化为什么

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LYF1993/article/details/91558395

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一般来讲权重矩阵是K个N维向量。从直觉上来讲，如果这K个N维向量在N维空间中均匀分布在以原点为中心的N-1维单位超球面上，在随机性上应该是最好的。因为这样，这K个向量的夹角为均匀分布。

此时问题变成了，如何在N-1维超球面上进行均匀采样。根据这篇论文A note on a method for generating points uniformly on n-dimensional spheres 可知，若对N维向量的每个分量进行N(0,1)的正态分布采样，生成K个N维向量，然后投影到单位超球面上，那么形成的K个N维向量在单位超球面上均匀分布。

所以用正态分布初始化，再单位化，就可以达到这种效果。当然也可以不必单位化(事实上每个向量还要用BN重新放缩,所以不可能单位化)，此时也能达到K个向量的夹角为均匀分布。

但事实上在高维空间中的深度学习中的采样都是稀疏采样，很难达到真正的均匀分布。理论上我猜最好的方法是不用采样，而是用算法直接在N-1维超球面上进行均匀划分获得K个N维点。

参考链接:https://www.zhihu.com/question/26579222

冬虫夏草1993

关注

7
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
深度学习权重初始化为什么要用正态分布

一般来讲权重矩阵是K个N维向量。从直觉上来讲，如果这K个N维向量在N维空间中均匀分布在以原点为中心的N-1维单位超球面上，在随机性上应该是最好的。因为这样，这K个向量的夹角为均匀分布。此时问题变成了，如何在N-1维超球面上进行均匀采样。根据这篇论文A note on a method for generating points uniformly on n-dimensional sphere...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。