卷积神经网络CNN实战9

93 篇文章 10 订阅
20 篇文章 2 订阅

深度学习超参数

1)学习率(Learning Rate)
学习率被定义为每次迭代中成本函数中最小化的量。也即下降到成本函数的最小值的
速率是学习率,它是可变的。从梯度下降算法的角度来说,通过选择合适的学习率,可以
使梯度下降法得到更好的性能。
一般常用的学习率有0.00001,0.0001,0.001,0.003,0.01,0.03,0.1,0.3,1,3,10
在这里插入图片描述2)学习率调整策略
2.1 fixed固定策略,学习率始终是一个固定值。
2.2 step 均匀分步策略,如果设置为step,则还需要设置一个stepsize, 返回
base_lr * gamma (floor(iter / stepsize))其中iter表示当前的迭代次数。floor(9.9)=9, 其功能是“下取
整”。
2.3 base_lr * gamma iter, iter为当前迭代次数。
2.4 multistep 多分步或不均匀分步。刚开始训练网络时学习率一般设置较高,这样loss和accuracy下降很快,一般前200000次两者下降较快,后面可能就需要我们使用较小的学习率了。step策略由于过于平均,而loss和accuracy的下降率在整个训练过程中又是一个不平均的过程,因此有时不是很合适。fixed手工调节起来又很麻烦,这时multistep可能就会派上用场了。multistep还需要设置一个stepvalue。这个参数和step很相似,step是均匀等间隔变化,而multistep则是根据 stepvalue值变化。

2)学习率调整策略
2.4 multistep设置示例
base_lr: 0.01
momentum: 0.9
weight_decay: 0.0005
#The learning rate policy
lr_policy: “multistep”
gamma: 0.9
stepvalue: 5000
stepvalue: 7000
stepvalue: 8000
stepvalue: 9000
stepvalue: 9500
2.5 poly: 学习率进行多项式误差, 返回 base_lr *(1 - iter/max_iter) power

深度学习训练过程

1)过拟合
过拟合就是模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力太差。
2)欠拟合
欠拟合模型没有很好地捕捉到数据特征,不能够很好地拟合数据。
在这里插入图片描述
3)误差的变化
在这里插入图片描述
4)根据特征的层来调整参数
左图很粗糙,显示不出底层特征,可能是因为网络不收敛或者学习速率设置不好或者是因
为惩罚因子设置的太小。 右图合理,特征多样,比较干净、平滑。
在这里插入图片描述

https://www.lfd.uci.edu/~gohlke/pythonlibs/#opencv
https://www.microsoft.com/zh-cn/download/details.aspx?id=48145&751be11f-ede8-5a0c-058c-
2ee190a24fa6=True

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr Robot

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值