Practical Recommendations for Gradient-Based Training of Deep Architectures

最新推荐文章于 2020-05-21 14:57:10 发布

cv_family_z

最新推荐文章于 2020-05-21 14:57:10 发布

阅读量1.5k

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cv_family_z/article/details/51673506

版权

深度学习专栏收录该内容

105 篇文章 0 订阅

订阅专栏

3 超参数
1）神经网络超参数
近似优化超参数：初始学习率，学习率策略超参数，mini-batch尺寸，训练迭代次数，动量 $\beta$ ，逐层优化超参数

2）模型及训练准则超参数
a. 隐含层节点数目 $n_h$ ：选择尽可能大的隐含层节点使训练能够早结束，所有层使用相同的隐含层数目不会比逐层选取的效果差。

b. 权值衰减归一化系数 $\lambda$ ：
为防止过度拟合，为训练准则增加权重衰减项，L2归一化为训练准则增加 $\lambda\sum_i\theta_i^2$ 项，L1增加 $\lambda\sum_i|\theta_i|$ 。
L2对比较大的值惩罚比较大，对应高斯先验，L1将没有太大用的参数变成0，即变稀疏，对应Laplace密度先验。

c. Sparsity of activation regularization coefficient α

d. 非线性神经元
神经元输出是 $s(a)=s(w^,x+b)$ ，其中s是非线性函数，隐含层节点常用的有sigmoid，双曲正切函数，rectifier max。如果深度监督网络的最后一个隐含层使用sigmoid函数且未经非监督预训练，优化将比较困难。自动编码器则效果比较好。输出节点使用rectifier没有意义，输出节点一般使用负对数似然并选择合适的输出概率模型。

e. 权值初始化系数
为打破同层隐含节点之间的对称性，权值初始化比较重要。要将参数进行随机初始化，而不是全部置为 0。如果所有参数都用相同的值作为初始值，那么所有隐藏层单元最终会得到与输入值有关的、相同的函数。具有多个输入的节点权值相对较小。

f.预处理
1）像素级处理：求均值和偏差
2）PCA降维
3）归一化

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Practical Recommendations for Gradient-Based Training of Deep Architectures

3 超参数 1）神经网络超参数近似优化超参数：初始学习率，学习率策略超参数，mini-batch尺寸，训练迭代次数，动量β\beta，逐层优化超参数2）模型及训练准则超参数隐含层节点数目nhn_h：选择尽可能大的隐含层节点使得训练早结束，所有层使用相同的隐含层数目不会比逐层选取的效果差。权值衰变归一化系数λ\lambda：为防止溢出，为训练准则增加归一化项，L2归一化为训练准则增加λ∑
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。