LHY机器学习笔记-3

最新推荐文章于 2024-07-25 14:29:46 发布

黎明沐白

最新推荐文章于 2024-07-25 14:29:46 发布

阅读量114

点赞数

分类专栏： LHY机器学习文章标签：机器学习神经网络

本文链接：https://blog.csdn.net/qq_42047140/article/details/120351125

版权

5 篇文章 0 订阅

订阅专栏

主要分为两类 variance 和 bias，如上图

简单的模型比较不容易受样本数据的影响，简单的模型variance较小，复杂的模型有比较大的variance

简单的模型有较大的bias，复杂的模型有较小的bias

error来源于 bias较大 —— underfitting
error来源于 variance较大 —— overfitting

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UYeDJsD5-1631865763579)(/uploads/upload_f4a824dd98327849f20c2843ae6d042a.jpeg)]

如果模型不能在训练集上得到较好的效果 ➡️ large bias ➡️ underfitting ➡️ redesign model（add more features as input， use a more complex model）

如果模型在训练集上效果较好，但在测试集上有很大的错误 ➡️ large variance ➡️ overfitting ➡️ more data， regularization（使曲线变平滑）

usually need a trade-off between bias and variance

Training Data -> Training Set + Validation Set (Select Model)

N-fold cross validation
将数据分成几份（i.e. 3份），其中任选一份做测试数据，其余两份做训练数据；重复训练多次，如3次

寻找使损失函数的值最小的参数的方法

popular 和 simple idea：每训练几轮就对学习率减小一个系数

给不同的参数选用不同的学习率，小tips：(adaptive learning)

Adagrad: 把每个参数的学习率除以它的之前的导数的均方根
$w^{t+1} \leftarrow w^t - \frac {\eta^t}{\sigma^t} g^t$

$ \sigma^t $ root mean square（均方根，平方平均再开根号） of 前一层参数w的导数，对每个参数是独立的
$\sigma^t = \sqrt{\frac{1}{t+1}\sum_{i=0}^t(g^i)^2}$

化简后：
$w^{t+1} \leftarrow w^t - \frac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}g^t$

可能会陷入局部最优 stuck at local minimal
卡在梯度为0的时候 stuck at saddle point
在高原地区梯度下降的非常慢 very slow at the plateau

关注

专栏目录