Practical Recommendations for Gradient-Based Training of Deep Architectures

3 超参数
1)神经网络超参数
近似优化超参数:初始学习率,学习率策略超参数,mini-batch尺寸,训练迭代次数,动量 β ,逐层优化超参数

2)模型及训练准则超参数
a. 隐含层节点数目 nh :选择尽可能大的隐含层节点使训练能够早结束,所有层使用相同的隐含层数目不会比逐层选取的效果差。

b. 权值衰减归一化系数 λ
为防止过度拟合,为训练准则增加权重衰减项,L2归一化为训练准则增加 λiθ2i 项,L1增加 λi|θi|
L2对比较大的值惩罚比较大,对应高斯先验,L1将没有太大用的参数变成0,即变稀疏,对应Laplace密度先验。

c. Sparsity of activation regularization coefficient α

d. 非线性神经元
神经元输出是 s(a)=s(w,x+b) ,其中s是非线性函数,隐含层节点常用的有sigmoid,双曲正切函数,rectifier max。如果深度监督网络的最后一个隐含层使用sigmoid函数且未经非监督预训练,优化将比较困难。自动编码器则效果比较好。输出节点使用rectifier没有意义,输出节点一般使用负对数似然并选择合适的输出概率模型。

e. 权值初始化系数
为打破同层隐含节点之间的对称性,权值初始化比较重要。要将参数进行随机初始化,而不是全部置为 0。如果所有参数都用相同的值作为初始值,那么所有隐藏层单元最终会得到与输入值有关的、相同的函数。具有多个输入的节点权值相对较小。

f.预处理
1)像素级处理:求均值和偏差
2)PCA降维
3)归一化

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值