Deep Neural Networks with Pytorch（8）

最新推荐文章于 2024-06-09 09:35:42 发布

九袋面

最新推荐文章于 2024-06-09 09:35:42 发布

阅读量206

点赞数

分类专栏： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37840762/article/details/119277844

版权

本文介绍了深度学习中的关键概念，包括使用PyTorch实现的Dropout以防止过拟合，神经网络权重的初始化如Xavier和He方法，以及动量法在梯度下降中的应用以避免局部最小值和鞍点问题。同时，探讨了Batch Normalization的作用及其在训练和测试阶段的使用。

摘要由CSDN通过智能技术生成

目录

8.1 Deep Neural Networks-nn.ModuleList()

pytorch实现dropout

8.2 Neural Network Initialization Weights

1.不初始化权重具有的问题

2.不同的网络参数初始化方法：缺省方法，泽西尔方法，何方法

8.3 Gradient Descent with Momentum

1.什么是动量momentum,动量如何解决陷入鞍点问题

2.什么是动量momentum,动量如何解决陷入陷入局部最小值点问题

8.4 Batch Normalization

1.batch normalization的例子

2.pytorch实现batch normalization

3.为什么batch normalization是有效的

8.1 Deep Neural Networks-nn.ModuleList()

图8.1 用nn.ModuleList()+Layers数组方式快速简洁搭建DNN

8.2 Dropout

Dropout是一种提高深度神经网络性能的手段，用来防止过拟合。

dropout
pytorch实现dropout

1.dropout

在实际调参过程中当隐层数量过多或者隐层单元数量过多都会导致过拟合现象，需要组合不同数量的隐层单元数和隐层数是很麻烦的，一种常用的做法是实现一个复杂的模型，对模型使用一种正则化手段——dropout.

Dropout分两个阶段，在训练时使用dropout，测试时关闭dropout.

Dopout的实现方法是将激活函数乘以一个伯努利分布随机数r（比努力分布是离散概率分布，随机变量r以概率p取值为0，以概率（1-p）取值为1）P越大，关闭的神经元越多。每次迭代关闭哪个神经元都是随机的，一般来说网络中神经元数量越多，p值应该越大

图8.2-1 dropout实例图8.2-2 pytorch为了让每个单元被激活的概率为（1-p），将每个激活值除以（1-p）

图8.2-2 pytorch为了让每个单元被激活的概率为（1-p），将每个激活值除以（1-p）

图8.2-3 更多隐单元的层应该有更大的p值，反之更小

再次声明：只有训练的时候需要dropout,测试时不需要dropout

图8.2-4 使用/不适用dropout的训练-测试误差

蓝黄两线是不适用dropout的训练-测试误差，可以看到训练误差一直减小，测试误差反而上升，这表明模型在拟合噪声；而绿红二线是使用dropout之后的训练*测试误差，可以看到此时并没有出现过拟合现象。

图8.2-5 dropout的pytorch实现，relu先激活再drop或者先drop再激活的结果一样

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。