神经网络优化总结：

hlhwna

于 2023-03-29 18:41:34 发布

阅读量52

点赞数 1

文章标签：机器学习 numpy 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hlhwna/article/details/129804187

版权

本文介绍了深度学习模型的初始化方法，包括全零、随机和He初始化，以及批量归一化的应用。讨论了不同的训练样本选择策略，如总体、随机和小批量。在反向传播中，提到了普通迭代、指数平均和Adam优化器。此外，正则化手段如L2正则化和dropout也被提及。最后，文章提到了梯度检验和超参数调整的重要性。

摘要由CSDN通过智能技术生成

ONE：初始化：1，总体的初始方式：{1：zeros：全0初始化，对w不能用，一般对b用；2：random：随机化，随机性较强，通常配合缩小系数使用；3：he：*np.sqrt(1||2/layer_size[l-1]),layer_size[l-1]是上一层的节点数或特征数（z=w1*x1+w2*x2+...+wn*xn),n大了，数多了，通过加数目乘法系数减小过拟合效果。}

2，每一层初始方式：批量归一化：{由对特征的归一化延申，现在对每层的z归一化（A的上一级），同时由于归一化矩阵为平均值为0，方差为1，为了更好体现特征，引入参数fan，beta，即znorm1 = fan*znorm0 + beta。znorm在每一次前向传播更新，并且带入A的运算，参数和theta，b在反向传播中更新）

SECOND：算法：1，批量选择：{1：总体；2：随机：一次一个数据，随机性强，波动大，快；3：mini-batch:一次一组}

2，反向传播方式的选择：{1：普通迭代；2：v：指数平均，波动平均收缩，水平平均累计；3：adam'：v+s：在2的基础上，进行根据导数大小相应的乘法}

3.正则化：{常用：1:l2;2:dropout节点抛弃：具有一定随机性，注意操作对象是A和dA，同时/保留系数。}

THREE：梯度检验，用平均去逼近以及超参数的范围先大概定论在细致尝试

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。