机器学习基础之线性回归

最新推荐文章于 2022-09-15 16:36:31 发布

qq_30011515

最新推荐文章于 2022-09-15 16:36:31 发布

阅读量138

点赞数

文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/qq_30011515/article/details/108986061

版权

本文介绍了线性回归的基本概念，包括一元和多元线性回归，以及使用最小二乘法的正规方程和梯度下降求解权值。讨论了sklearn库中的线性回归实现，并提到了模型评估指标均方误差。接着，文章探讨了过拟合和欠拟合的问题，以及如何通过特征选择、交叉验证和正则化（如L2正则化的Ridge回归）来应对这些问题。

摘要由CSDN通过智能技术生成

一、线性回归

定义：线性回归通过一个或者多个自变量与因变量之间进行建模的回归分析。其中特点为一个或多个成为回归系数的模型参数的线性组合；
一元线性回归：涉及到的变量只有一个；
多元线性回归：设计到的变量两个或两个以上；
通用公式：h(w) = w0 + w1 * x1 + w2 * x2 + … = wTx
损失函数：
损失函数的定义
损失函数最小化：最小二乘法之正规方程和最小二乘法之梯度下降；
最小二乘法之正规方程：
在这里插入图片描述
最小二乘法之梯度下降：权值更新方法：

沿着这个函数下降的方向找，最后就能找到山谷的最低点，然后更新W值；
sklearn线性回归正规方程、梯度下降API：
正规方程：sklearn.linear_model.LinearRegression；
梯度下降：sklearn.linear_model.SGDRegressor

回归性能评估：
评价机制：均方误差（Mean Squared Error)MSE:
在这里插入图片描述

sklearn回归评估API:sklearn.metrics.mean_squared_error其中
mean_squared_error(y_true, y_pred)：均方误差回归损失；y_true:真实值；y_pred:预测值；return:浮点数结果；
线性回归特点：线性回归器是最为简单、易用的回归模型。从某种程度上限制了使用，尽管如此，在不知道特征之间关系的前提下，我们仍然使用线性回归器作为大多数系统的首要选择。

二、过拟合、欠拟合和岭回归

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)；
欠拟合：一个假设在训练数据上不能获得更好的拟合，但是在训练数据外的数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)
欠拟合与过拟合原因：
欠拟合原因：学习到数据的特征过少；解决办法：增加数据的特征数量；
过拟合原因：原始特征过多，存在一些嘈杂特征，
模型过于复杂是因为模型尝试去兼顾各个测试数据点；解决办法：进行特征选择，消除关联性大的特征(很难做)；交叉验证(让所有数据都有过训练)；正则化；
L2正则化：
作用：可以使得W的每个元素都很小，都接近于0；
有点：越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象；
Ridge回归：带有正则化的线性回归；
Ridge回归API：sklearn.linear_model.Ridge(alpha=1.0)，具有L2正则化的线性最小二乘法；alpha:正则化力度，coef_：回归系数
岭回归优点：回归系数更符合实际，更加可靠，此外，可以让估计参数的波动范围变小，模型更加稳定，在病态数据偏多的研究中具有较大的实用价值；