拟合性与学习率

最新推荐文章于 2024-05-31 23:25:08 发布

onlywishes

最新推荐文章于 2024-05-31 23:25:08 发布

阅读量2.3k

点赞数 1

分类专栏： pytorch学习笔记文章标签：深度学习机器学习算法 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59310933/article/details/122953516

版权

pytorch学习笔记专栏收录该内容

12 篇文章 6 订阅

订阅专栏

过拟合

由于函数模型的表现能力太强，如果数据量少的话，就会出现过拟合，与之对应的是欠拟合

减少过拟合的方法

regularization 又叫做 weight-decay

实现方法

对于L1

对于L2

weight_decay相当于λ ,会使二范数越来越接近0

Dropout

减少层与层间的连接，来降低复杂度

pytorch与TensorFlow使用区别

动量

多减去一项，梯度就会向减去的梯度方向，这样就有偏向，zk是指向上一次的梯度方向，

那么利用平行四边形法则，新梯度方向就是两个梯度的加权和方向

在优化器SGD中没有内置要手动添加

learning rate decay

当学习率过低时，完成需要时间会很久，过大时，会达不到预期结果

怎样设置呢，可以设置一个相对大一点的，然后慢慢减小直到找到一个较好的结果

使用ReduceLROnPlateau来更新学习率

torch.optim.lr_scheduler.ReduceLROnPlateau ( optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08 )

方案一

scheduler.step(loss_val)表示连续调用patience次后loss没有改变，就把lr乘以相应减少因子

方案二

scheduler的step_size表示scheduler.step()每调用step_size次，对应的学习率就会按照策略调整一次。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
拟合性与学习率

过拟合由于函数模型的表现能力太强，如果数据量少的话，就会出现过拟合，与之对应的是欠拟合减少过拟合的方法regularization 又叫做 weight-decay实现方法对于L1对于L2weight_decay相当于λ ,会使二范数越来越接近0Dropout减少层与层间的连接pytorch与TensorFlow使用区别动量多减去一项，梯度就会向减去的梯度方向，这样就有偏向，zk是指向上一次的梯度方向...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

onlywishes 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。