10过拟合问题

10.1过拟合的问题

第一个具有较高误差

第二个比较合适

第三个太合适了,而且函数图像不正确,所以过拟合了,也叫做具有高方差。如果稍微变动一下输入,输出可能会有很大变化。

所以要寻找一个既没有高偏差又没有高方差的式子。

这又是一个过拟合的例子,尽管它在训练中做的非常好,但是这并不能应用在实际的生活中。

1欠拟合:泛化能力差,训练样本集准确率低,测试样本集准确率低。
2过拟合:泛化能力差,训练样本集准确率高,测试样本集准确率低。
3合适的拟合程度:泛化能力强,训练样本集准确率高,测试样本集准确率高

欠拟合原因:

1训练样本数量少
2模型复杂度过低
3参数还未收敛就停止循环

欠拟合的解决办法:

1增加样本数量
2增加模型参数,提高模型复杂度
3增加循环次数
4查看是否是学习率过高导致模型无法收敛

过拟合原因:

1数据噪声太大
2特征太多
3模型太复杂

过拟合的解决办法:

1清洗数据
2减少模型参数,降低模型复杂度
3增加惩罚因子(正则化),保留所有的特征,但是减少参数的大小(magnitude)。

10.2解决过拟合

1.可以多找几个数据来防止过拟合

2.查看,不使用这么多的多项式特征。只选择比较重要的特征(特征选择)

3.正则化(Regularization)

将某一项的参数设为零,不那么剧烈,正则化所做的使鼓励学习算法收缩参数值,不一定正好为0。

正则化所做的是保留所有的功能,防止功能过大产生影响。

10.3正则化代价函数

通常实现正则化的方式就是乘法所有的特征,即惩罚所有的参数

通常不去惩罚b,因为没有太大的作用

1.希望把成本降到最低,即误差均方成本。2.加上正则化术语。

怎么对模型做正则化?
我们对前面的讨论进行推广。假如我们有非常多的特征,我们并不知道其中哪些特征我们要惩罚,我们将对所有的特征进行惩罚,并且让代价函数最优化的软件来选择这些惩罚的程度。于是,我们分析 线性回归模型 的代价函数和 Logistic回归模型 的代价函数如何修改。

线性回归:

则修改梯度下降过程:

逻辑回归:

则修改对应梯度下降过程:

其中 λ称为正则化参数(Regularization Parameter),当参数越大,则对其惩罚(规范)的力度也就越大,越能起到规范的作用。但是要注意,λ 并不是越大越好的!如果选择的正则化参数 λ
大,则会把所有的参数都最小化了,导致模型变成 hθ(x)=θ0造成欠拟合。因此,我们对 λ的选取需要合理即可。

10.4正则化线性回归

10.5正则化logistic回归

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云 无 心 以 出 岫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值