机器学习（T1）--深度学习的网络设计技巧

Struart_R

于 2022-08-24 15:26:53 发布

阅读量536

点赞数 1

分类专栏：深度学习小白文章标签：深度学习机器学习人工智能神经网络 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60177079/article/details/126502790

版权

深度学习小白专栏收录该内容

5 篇文章 0 订阅

订阅专栏

目录

一、如何改进神经网络？

1、改变激活函数

2、变化学习率

3、batchsize和趋势项

一、如何改进神经网络？

1、改变激活函数

当使用sigmoid函数进行迭代，迭代次数增加时，可能会出现梯度消失，即比较靠近输入的几层梯度值十分小，靠近输出层的几层梯度值会很大，当你设定相同的学习率时，靠近输入层的参数收敛缓慢，而输出层的参数已经收敛完全。

通过用ReLU函数来改善梯度消失，由于ReLU函数的梯度不会随x的变化而变化，所以不会出现梯度消失的问题。

2、变化学习率

常用的变化学习率的算法有RMSprop、SGD、Adam、Adagrad、Momentum

RMSprop是一种自适应学习率方法。Adagrad会累加之前所有的梯度平方，而RMSprop仅仅是计算对应的平均值，因此可缓解Adagrad算法学习率下降较快的问题。

Adam是另一种自适应学习率的方法。它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。

Adagrad能够在训练中自动的对α进行调整，对于出现频率较低参数采用较大的α更新；相反，对于出现频率较高的参数采用较小的α更新。因此，Adagrad非常适合处理稀疏数据。

3、batchsize和趋势项

batchsize：选取一次训练的样本数，一个epoch读取一次所有的batchsize，通常来说batchsize越小训练出来的模型越好，但计算时间越长，batchsize越大计算速度更快，越容易欠拟合。

趋势项：通过在梯度下降过程中加入趋势项来避免局部最优解。

4、dropout

在神经网络前向传播时，通过让神经元以一定概率p来停止工作，提高泛化程度，降低对特征的依赖程度，从而优化模型。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（T1）--深度学习的网络设计技巧

神经网络的改进
复制链接

扫一扫

专栏目录

Struart_R CSDN认证博客专家 CSDN认证企业博客

码龄3年

86: 原创

104万+: 周排名

4万+: 总排名

8万+: 访问

: 等级

1440: 积分

837: 粉丝

527: 获赞

26: 评论

680: 收藏

私信

关注

热门文章

分类专栏

最新评论

CUMT--Java复习--文件及IO流
Struart_R: nio那节，第一个buff.limit（）输出为8
深度学习--关于MobilenetV3-small模型（2）
coke63: TypeError: MobileNetV3.__init__() missing 2 required positional arguments: 'inverted_residual_setting' and 'last_channel'为什么有这个报错，def mobilenet_v3_small不是已经返回了参数了吗
搭建YOLO环境配置使用requirements.txt产生的问题
Struart_R: 找模型所需要的对应版本cuda的torch，一般的在requirements或者，配置的代码中有提到。如果没有就需要去torch官网下载。
搭建YOLO环境配置使用requirements.txt产生的问题
weixin_61189290: 有没有办法直接下gpu版本的torch呢
NLP（3）--GAN
Struart_R: 谢谢您的支持，我会继续努力更新博客的。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。