线性回归算法梳理-1

最新推荐文章于 2024-01-17 15:11:15 发布

丹哩个丹

最新推荐文章于 2024-01-17 15:11:15 发布

阅读量469

点赞数 1

分类专栏：机器学习文章标签：线性回归算法梳理

本文链接：https://blog.csdn.net/jdjd321/article/details/88877010

版权

本文深入探讨了线性回归的基础，包括有监督学习、过拟合与欠拟合的概念，以及交叉验证的重要性。介绍了线性回归的原理，通过最小化误差平方和确定最佳模型。同时，讨论了线性回归的损失函数和目标函数，并阐述了梯度下降、牛顿法和拟牛顿法等优化策略。最后，提到了线性回归的评估指标及sklearn库的相关参数。

摘要由CSDN通过智能技术生成

1. 机器学习的一些概念

1.1 有监督、无监督

①. 有监督学习 ：训练数据有标记信息，其中分类与回归属于监督学习。
②. 无监督学习 ：训练数据没有标记信息，代表有聚类。

1.2 过拟合、欠拟合

偏差(Bias)指预测输出与真实标记的差别。偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。
方差(Variance)指一个特定训练集训练得到的函数，与所有训练集得到平均函数的差的平方再取期望。方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。方差表示所有模型构建的预测函数，与真实函数的差别有多大。

如果一个模型，在训练集上的预测结果就不佳，指标偏低，那一般是欠拟合的问题。
如果在训练集上指标很好，而在测试集上指标偏低，则很可能是过拟合问题。甚至有时候，在训练集和测试集上效果都不错，一到真实环境却预测误差较大，这种情况也是过拟合。
对于两种不同的问题，解决办法各不相同。

欠拟合多数情况下是因为选定模型类型太过简单，特征选取不够导致的。
----相应的解法则是针对性的选择更复杂的模型，增加特征，减小正则项比重

而过拟合则相反，可能是模型太过复杂，特征选择不当（过多或组合不当）造成。
----相应的解法则是针对性的选择更简单的模型，减少特征，增大正则项比重

但有一点，无论是欠拟合还是过拟合问题，增大训练数据量都可能会有所帮助。

通常来讲，模型欠拟合时，预测结果不准，偏差较大；但对于不同训练集，训练得到的模型都差不多(对训练集不敏感)，此时的预测结果差别不大，方差小。模型过拟合时，模型含有训练集的信息，预测的准确度一般不高，偏差较大；模型对训练集敏感，在与总体同分布的相同大小的不同训练样本上训练得到的模型，在验证集上的表现不一，预测结果相差大，方差大。上述关系如下表所示：

名称	过拟合	欠拟合	备注
偏差	较大	一定大	主要针对验证集而言

最低0.47元/天解锁文章

丹哩个丹

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
线性回归算法梳理-1

线性回归算法梳理-11. 机器学习的一些概念1.1 有监督、无监督①. 有监督学习：训练数据有标记信息，其中分类与回归属于监督学习。②. 无监督学习：训练数据没有标记信息，代表有聚类。1.2 过拟合、欠拟合方差和偏差？如果一个模型，在训练集上的预测结果就不佳，指标偏低，那一般是欠拟合的问题。如果在训练集上指标很好，而在测试集上指标偏低，则很可能是过拟合问题。甚至有时候，在训练...
复制链接

扫一扫