NN网络初始权值问题

最新推荐文章于 2023-01-20 19:46:12 发布

buendia.D

最新推荐文章于 2023-01-20 19:46:12 发布

阅读量801

点赞数

本文链接：https://blog.csdn.net/m0_63031984/article/details/122823730

版权

深度学习梯度下降权重初始化模型收敛学习率

关键词由CSDN通过智能技术生成

在写吴恩达教师dl第四周的作业的时候，遇到一个好玩的事情

我设定了1000的迭代次数，但是可以看出，该函数已经收敛，一直处于0.65左右。经过改良可以变成

可以看出第900次迭代的cost只有0.4，事实上，继续往下迭代可以达到0.04的误差。

首先这样产生的问题可能是学习率过小，使得梯度得不到有效的下降

梯度下降公式为

W[l]=W[l]−α dW[l]

α就是学习率。有趣的是，这里并不是学习率的问题。

问题在于初始化权值：

parameters["W" + str(l)] = np.random.randn(layers_dims[l], layers_dims[l - 1]) *0.01

此处的权值乘0.01的系数。

修改后的权值初始化：

for l in range(1, L):
parameters["W" + str(l)] = np.random.randn(layers_dims[l], layers_dims[l - 1]) / np.sqrt(layers_dims[l - 1])
parameters["b" + str(l)] = np.zeros((layers_dims[l], 1))

（具体代码可以参考：【中文】【吴恩达课后编程作业】Course 1 - 神经网络和深度学习 - 第四周作业(1&2)_何宽的博客-CSDN博客_吴恩达课后编程作业

）

这里的权值与layer的元素呈正比关系。笔者猜测，跟层数有关。当hidden-layer很少，1，2层时，系数设为0.01无影响。当层数变多，没层元素不同，因此修改修正系数，使得数据正常梯度下降

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

buendia.D

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

PyTorch学习—11.权值初始化

柳杰的博客

07-18

616

文章目录引言梯度消失与爆炸引言本节讲解权值初始化的必要性，首先分析神经网络中权值的方差过大导致梯度爆炸的原因，然后从方差一致性原则出发分析Xavier初始化方法与Kaiming初始化方法的由来，最后介绍pytorch提供的十种初始化方法。梯度消失与爆炸恰当的权值初始化可以加速收敛，不当的权值初始化会导致梯度爆炸或梯度消失，最终导致模型无法训练。下面我们了解不恰当的权值初始化是如何导致梯度消失与爆炸的？我们可以知道要避免梯度消失与爆炸，要严格控制网络输出层的输出值的尺度范围，使得每一层的

NN权重初始值及其对各层激活值分布的影响，权值衰减

wulimmya的博客

08-21

1654

NN中每一个Affine层的权重参数的初始值是非常重要的，甚至会影响学习是否成功。但幸好我们已经有很多前辈总结出了比较好的初始值，以及判定一组初始值是否可以取得好的学习效果的方法。权值衰减有一种抑制过拟合，提高泛化能力的技术，叫做权值衰减，weight decay，它的目的是减小NN的权重参数。但是虽然较小权值参数可以获得好的学习效果避免过拟合，我们却不可以把权重的初始值设置为0！！！这...

参与评论您还未登录，请先登录后发表或查看评论

「细聊」torch.nn.init 初始化

绿色羽毛

08-11

9319

init.uniform从均匀分布 \mathcal{U}(a, b)中生成值，填充输入的张量或变量 Parameters:tensor - n维的torch.Tensor a - 均匀分布的下界 b - 均匀分布的上界 nn.init.normal 从给定均值和标准差的**正态分布** $\mathcal{N}(mean, std)$中生成值，填充输入的张量或变量 Parameters: tensor – n维的torch.Tensor mean – 正态分布的均值 std nn.init.constan

神经网络的k和b初始化方式问题笔记

weixin_44737922的博客

07-25

317

参考的原文章知乎上对应的翻译初始化是为了防止梯度消失和爆炸编写代码，假设输入是512的行向量，经过10个512x512的矩阵，计算输出的平均值和标准差。输入行向量，每个矩阵，都是标准正态分布 import torch # 随机生成一个512的输入值，服从正态分布 x = torch.randn(512) y = x for i in range(10): a = torch.randn(512, 512) y = a @ y print(y.mean()) print(y.std

NN模型设置--参数初始化

wydbyxr的博客

12-04

4523

参数初始化的原理权值初始化对网络优化至关重要。早年深度神经网络无法有效训练的一个重要原因就是早期人们对初始化不太重视。模型对初始的参数是很敏感的，如果参数都很大，那么经过wx+b这个线性函数时，输出的值也会很大，若是经过tanh这个激活函数，输出的结果绝对值都几乎接近于1，也就是说每个神经元的输出都几乎相同，这完全违背了神经网络的初衷，事实上我们希望每个神经网络都能去学习一个不同的特征...

nn 激活函数_NN 初始化技巧&激活函数

weixin_39530149的博客

12-19

266

先放结论，细节慢慢慢慢补充：初始化技巧如果当你需要提高精度，比如说想把模型从float变为double。需要对模型和所有张量设置：model = model.double()pytorch.set_default_tensor_type('torch.DoubleTensor')不过double比float要慢很多，要结合实际情况进行思考。必要性举例：xavier_normal_默认网络参数为fl...

pytorch中nn.init()初始化模型参数

CSDN 精品推荐

11-13

746

我们首先需要定义好需要的参数矩阵，然后利用nn.init模块中的参数初始化函数进行初始化，只需要把需要修改的参数矩阵传入即可。如果对于nn.init模块中没有我们需要的初始化策略，我们可以自己定义函数进行初始化，无非就是定义一些运算修改参数矩阵罢了。但是我们也可以使用自定义的初始化策略来代替pytorch默认的参数初始化策略，可以使用nn模块中的。策略，例如Linear和Conv2d等已经实现好了内部参数，不需要手动设置。在我们搭建网络模型时，初始化模型参数是非常重要的，过大或者过小以及。

pytorch nn.Module调用过程详解及weight和bias的值的初始化

weixin_42713739的博客

09-18

9617

首先说明一点： nn.Module 是所有神经网络单元（neural network modules）的基类 pytorch在nn.Module中，实现了__call__方法，而在__call__方法中调用了forward函数。举例说明： x = torch.randn(2, 3) #input 2*3 m = torch.nn.Linear(3, 2)#output 2*2 output = m(x) print(output) 输出结果： tensor([[ 0.1918, -0.1055],

pytorch模型(nn.Module)初始化的影响

怡宝2号

08-12

3030

pytorch在定义模型的时候，是继承（nn.Module）类，一般是我们在初始化的时候，将不同的模块都定义好，在forward函数中进行调用，有的时候，在初始化的时候，会初始化一些没有用到的模块，而没有删除，或者在forward函数中没有用到，这样会影响网络的收敛速度。举个例子第一种：没有将self.attention和self.decoder删掉，forward中也没有使用这样收敛速度会变...

Pytorch卷积层手动初始化权值的实例

09-18

手动初始化权重能够让我们根据特定的先验知识或实验目的来调整网络参数，可能会带来训练效果上的优化。首先，来看一下如何在Pytorch中创建一个卷积层并查看其默认初始化的权重。通过以下代码，我们可以创建一个...

浅析PyTorch中nn.Module的使用

12-25

torch.nn.Modules 相当于是对网络某种层的封装，包括网络结构以及网络参数和一些操作 torch.nn.Module 是所有神经网络单元的基类查看源码初始化部分： def __init__(self): self._backend = thnn_backend self._parameters = OrderedDict() self._buffers = OrderedDict() self._backward_hooks = OrderedDict() self._forward_hooks = OrderedDict() self._forwa

pytorch学习笔记九：权值初始化

Dear_learner的博客

02-21

2498

一、概念权值初始化是指在网络模型训练之前，对各节点的权值和偏置初始化的过程，正确的初始化会加快模型的收敛，从而加快模型的训练速度，而不恰当的初始化可能会导致梯度消失或梯度爆炸，最终导致模型无法训练。如上图所示的一个基本的CNN网络结构，数据在网络结构中流动时，会有如下的公式（默认没有偏置）：在反向传播的过程中，由于是复合函数的求导，根据链式求导法则，会有两组导数，一个是损失函数Cost对Z的导数，一个是损失函数对W的导数， 1、损失函数关于状态Z的梯度： 2、损失函数关于W的梯度：可以看出，

神经网络工具箱——nn.funtional、初始化策略

zhenaoxi1077的博客

07-07

717

4.nn.functional 5. 初始化策略 4.nn.functional nn中还有一个很常用的模块：nn.functional。nn中大多数layer在functional中都有一个与之对应的函数。 nn.functional中的函数和nn.Module的主要区别在于，用nn.Module实现的layers是一个特殊的类，都是由class Layer(nn...

神经网络的基本骨架-nn.Moudle的使用

booze_的博客

06-24

606

Contains官方文档神经网络的基本骨架-nn.Moudle的使用官方文档根据官方文档的示例：使用神经网络的基本骨架-nn.Moudle,主要可以分为三步吧。对官方文档这部分代码的解释：看图，很形象的。使用示例：代码运行结果：............

神经网络初始化

qq_42527487的博客

05-17

931

神经网络参数初始化非常重要，适合的初始化可以简化训练过程，提高精确率；参数初始化不是一成不变的，需要根据网络结构、激活函数以及优化算法等进行分析；本篇记录5种初始化参数方法 1、将参数初始化为0 2、随机初始化参数，np.random.randn(layer_dims[l],layer_dims[l-1])*0.01 然后乘以0.01, 乘以0.01是为了尽量避免梯度消失，随机生成的参数...

使用Python构建参数化FNN（一）——构建可自定义结构的FNN

qq_41959920的博客

04-08

2237

提示：转载请注明出处，若本文无意侵犯到您的合法权益，请及时与作者联系。文章目录一、神经元与神经层的输出计算二、实现一个2*3*1的FNN 三、实现一个自定义结构的FNN 一、神经元与神经层的输出计算从单个神经元的角度看，我们输入一个x，它经过自身的权重、偏置和激励函数(以Sigmoid为例)返还一个输出值。从单个神经层（假设有3个神经元）的角度看，我们输入一个向量,它经过自身的权重矩阵、偏置向量和激励函数(以Sigmoid为例)返还一个输出向量。在上述描述中，我们使用

nn.Module介绍(一)