李宏毅机器学习笔记：无偏性/有效性平衡梯度下降法学习率技巧

最新推荐文章于 2022-11-14 11:29:32 发布

麻麻在学习

最新推荐文章于 2022-11-14 11:29:32 发布

阅读量379

点赞数

文章标签：机器学习

原文链接：https://datawhalechina.github.io/leeml-notes/#/chapter6/chapter6

版权

源视频链接：https://www.bilibili.com/video/BV1Ht411g7Ef?p=5

学习笔记总结

一、误差从哪里来？

1 欠拟合 /过拟合
将图中的误差拆分为偏差和方差。简单模型（左边）是偏差比较大造成的误差，这种情况叫做欠拟合，而复杂模型（右边）是方差过大造成的误差，这种情况叫做过拟合。在这里插入图片描述 2 解决欠拟合的方法：

数据集输入中添加更多的特征变量
重新设计采用其他模型
3 解决过拟合方法
增加训练集数据量
加入正则化限制过拟合，减少方差过程也会增加偏差
4 通过交叉验证 K折交叉验证预先在验证集上选择最优模型，再去测试集上训练，可以提高测试集评价结果的真实性

二、梯度下降法学习率设置技巧

1 小心翼翼调整学习率
在这里插入图片描述

学习率不能是一个值通用所有特征，不同的参数需要不同的学习率一个典型算法 Adagrad 算法
也可随着迭代次数增加逐渐使用较大学习率
举一个简单的思想：随着次数的增加，通过一些因子来减少学习率
通常刚开始，初始点会距离最低点比较远，所以使用大一点的学习率
update好几次参数之后呢，比较靠近最低点了，此时减少学习率

2 随机梯度下降法
在这里插入图片描述 3 特征缩放
特征缩放后，可以提高参数更新效率
4 根据梯度下降法的数学理论基础，学习率需要足够小才满足泰勒展开式的假设，否则梯度下降时，无法实现损失函数的减小
5 梯度下降法并不是万能，不合适的初始点和学习率都有可能找不到局部最优参数

在这里插入图片描述

麻麻在学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。