0228线性回归算法梳理

最新推荐文章于 2020-08-31 09:36:49 发布

Guiabbey

最新推荐文章于 2020-08-31 09:36:49 发布

阅读量438

点赞数

本文链接：https://blog.csdn.net/Guiabbey/article/details/88043016

版权

本文详细介绍了线性回归的相关概念，包括有监督学习、无监督学习、过拟合与欠拟合的解决方案，以及线性回归的原理、损失函数、参数求解方法。还探讨了线性回归的评估指标，如残差平方和和判定系数，并介绍了sklearn库中线性回归的使用参数。

摘要由CSDN通过智能技术生成

线性回归算法梳理

一、机器学习相关概念

1、有监督学习与无监督学习

（1）有监督学习的数据具备特征（features）与预测目标(label)，有监督学习同时拥有输入变量x和输出变量y。用一个算法把输入到输出的映射关系——y=f(x)学习出来，当拿到新数据x1时就可以用学习到的映射关系得到相应的y1。有监督学习可分为：回归和分类。在回归问题中，我们会预测一个连续值；在分类问题中，我们会预测一个离散值。常见的有监督学习：线性回归、朴素贝叶斯分类、逻辑回归、决策树、SVM、KNN属于有监督学习。
（2） 无监督学习的没有预测目标（label），只有输入变量x。无监督学习目的是将训练数据潜在的结构或分布找出来，以便于我们对这些数据有更多了解。常见的无监督学习：KMeans、主成分分析。

2、过拟合、欠拟合、泛化能力、交叉验证

（1）过拟合是指模型在训练集上表现良好，在测试集上表现不好的情况。过拟合的原因是模型对数据学习的太彻底，以至于噪声数据也学习到了。
在这里插入图片描述
解决方法：
（1.1）重新清洗数据，清洗不纯数据。
（1.2）增大数据的训练量。
（1.3）采用正则化方法。正则化方法包括L0,L1,L2正则，在机器学习中一般用L2正则。
https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/80997489
上面链接介绍正则化。
（1.4）采用dropout方法。通常用在神经网络中，在训练过程中随机丢掉一部分神经元。
（1.5）交叉验证法。

（2）欠拟合是指模型在训练集和测试集上表现的都不好的情况。欠拟合的原因是模型没有很好的学习数据特点，以至于不能很好地拟合。
在这里插入图片描述
解决方法：
（2.1）添加其他特征项。
（2.2）添加多项式特征，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。如上图中就是通过增加二次项解决欠拟合问题。
（2.3）减少正则化参数。
(3) 泛化能力是指学习到的模型对未知数据的预测能力，也可以理解为迁移能力。通过测试误差来评价泛化能力。其中过拟合和欠拟合就是机器学习泛化能力弱的两大原因。
（4）交叉验证其基本思想就是将原始数据（dataset）进行分组，一部分做为训练