线性回归算法梳理-1

本文深入探讨了线性回归的基础,包括有监督学习、过拟合与欠拟合的概念,以及交叉验证的重要性。介绍了线性回归的原理,通过最小化误差平方和确定最佳模型。同时,讨论了线性回归的损失函数和目标函数,并阐述了梯度下降、牛顿法和拟牛顿法等优化策略。最后,提到了线性回归的评估指标及sklearn库的相关参数。
摘要由CSDN通过智能技术生成

1. 机器学习的一些概念

1.1 有监督、无监督

①. 有监督学习 :训练数据有标记信息,其中分类与回归属于监督学习。
②. 无监督学习 :训练数据没有标记信息,代表有聚类。

1.2 过拟合、欠拟合

偏差(Bias)指预测输出与真实标记的差别。偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。
方差(Variance)指一个特定训练集训练得到的函数,与所有训练集得到平均函数的差的平方再取期望。方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。方差表示所有模型构建的预测函数,与真实函数的差别有多大。
示例
如果一个模型,在训练集上的预测结果就不佳,指标偏低,那一般是欠拟合的问题。
如果在训练集上指标很好,而在测试集上指标偏低,则很可能是过拟合问题。甚至有时候,在训练集和测试集上效果都不错,一到真实环境却预测误差较大,这种情况也是过拟合
对于两种不同的问题,解决办法各不相同。

欠拟合多数情况下是因为选定模型类型太过简单,特征选取不够导致的。
----相应的解法则是针对性的选择更复杂的模型,增加特征,减小正则项比重

过拟合则相反,可能是模型太过复杂,特征选择不当(过多或组合不当)造成。
----相应的解法则是针对性的选择更简单的模型,减少特征,增大正则项比重

但有一点,无论是欠拟合还是过拟合问题,增大训练数据量都可能会有所帮助。

通常来讲,模型欠拟合时,预测结果不准,偏差较大;但对于不同训练集,训练得到的模型都差不多(对训练集不敏感),此时的预测结果差别不大,方差小。模型过拟合时,模型含有训练集的信息,预测的准确度一般不高,偏差较大;模型对训练集敏感,在与总体同分布的相同大小的不同训练样本上训练得到的模型,在验证集上的表现不一,预测结果相差大,方差大。上述关系如下表所示:

名称 过拟合 欠拟合 备注
偏差 较大 一定大 主要针对验证集而言
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值