最小二乘法概要

最新推荐文章于 2023-12-27 01:58:43 发布

你今天机器学习了么

最新推荐文章于 2023-12-27 01:58:43 发布

阅读量2.4k

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/None_Pan/article/details/106181672

版权

普通最小二乘法，偏最小二乘法，矩阵最小二乘法的推导过程以及比较，请看我后面的文章，此篇为概要。

最小二乘法是什么？

“最小二乘”方法是一种数学回归分析的形式，用于确定最适合一组数据的线，以可视方式演示数据点之间的关系。数据的每个点表示一个已知自变量与一个未知因变量之间的关系。

通过最小化曲线上各点的偏移量的平方和（“残差”）来找到与给定点集最匹配的曲线的数学过程。使用偏移量平方的总和代替偏移量绝对值，因为这样可以将残差视为连续的可微分量。但是，由于使用了偏移量的平方，因此外围点可能对配合产生不成比例的影响，根据当前的问题，可能需要或可能不希望使用的属性。

最小二乘例子：

最佳拟合线
假设您有一些要点，并希望有一条最适合他们的直线，如下所示：
在这里插入图片描述
我们的目的是计算直线方程中的值m（斜率）和b（y截距）：

在这里插入图片描述
例子：
我们想找到发现从星期一到星期五，商店里卖出了多少种冰淇淋并且日照小时的关系：

让我们找到适合该数据的最佳m（斜率）和b（y截距）

y = mx + b

对于每个（x，y）计算x²和xy：
在这里插入图片描述
然后对每一列求和：

根据公式计算m和b：
在这里插入图片描述

在这里插入图片描述

然后得到最终结果：
在这里插入图片描述

什么是最小二乘拟合？

最小二乘拟合（也称为最小二乘估计）是一种为一组点找到最佳拟合曲线或直线的方法。在此技术中，偏移量（残差）的平方和用于估算最佳拟合曲线或直线，而不是偏移量的绝对值。结果方程式为您提供了任何x值的y值，而不仅仅是用点绘制的x和y值。

最小二乘拟合的优点

最小二乘可将残差视为连续量，可在其中找到导数（输入变化时函数输出变化多少的度量）。这是无价的，因为首先要查找方程式的目的是能够预测线上的其他点（甚至是超出原始点的点）可能位于的位置。

最小二乘拟合的缺点

如果使用最小二乘拟合法找到曲线方程，则离群值会产生不成比例的影响。这是因为使用了偏移量的平方而不是偏移量的绝对值。离群值自然会具有较大的偏移，并且对线的影响将大于线附近的点。这些不成比例的值在某些情况下可能是有益的。

普通最小二乘

普通最小二乘回归是一种找到最适合一组数据的线的方法。它通过创建一个最小化垂直距离平方和（残差）的模型来做到这一点。

距离被平方以避免带负号的距离问题。然后问题就变成了应该将线放置在何处，以使从点到线的距离最小化。在下图中，最佳拟合线A从点到线的距离比随机放置的线B的距离小。

在这里插入图片描述

计算普通最小二乘回归
普通最小二乘回归使用简单的线性回归来找到最佳拟合线。如果您使用的是技术（例如SPSS），则可以选择“线性回归”。
如果您的数据不符合直线，您仍然可以使用普通最小二乘回归，但模型将是非线性的。您可能需要使用软件来计算非线性方程。

普通最小二乘回归的假设
为了使OLS回归正常运行，您的数据应符合几个假设：

您的模型应具有线性参数。
您的数据应该是总体中的随机样本。换句话说，残差不应以任何方式彼此关联或关联。
自变量不应强烈共线。
残差的期望值为零。
残差具有齐次方差。
残差遵循正态分布。
自变量已经过准确测量（如果不正确，则测量中的小误差可能会导致OLS回归产生巨大误差）。

偏最小二乘

约束：

在这里插入图片描述

偏最小二乘回归用于预测数据趋势，与多元回归分析的方法大致相同。当您有大量高度共线性的预测变量（即它们位于一条直线上）时，PLS回归特别有用。有了这两个约束，多元回归分析就没有用了。通常发生的情况是，如果因素的数量大于观察值的数量，则多元回归模型可以很好地拟合样本数据，但无法预测任何事情。这种现象称为“过度拟合”，已通过偏最小二乘回归得到解决和纠正。该技术通过以下方法解决过度拟合问题：

将预测变量减少到较小的一组不相关组件。这些组件被映射到新的空间。
对新的一组零件执行最小二乘拟合。
如果普通最小二乘回归无法产生任何结果或产生具有高标准误差的组件，则PLS回归也很有用。

偏最小二乘回归也与主成分分析有一些相似之处。但是，PLS回归的重点在于预测，而不是理解变量之间的关系。尽管它可以在广泛的学科中使用，但是它广泛用于化学计量学中，以建模多变量测量集之间的线性关系。

由于PLS回归主要关注预测，因此它是限制性最小的多元分析方法之一。例如，如果观测值少于预测变量，则将无法使用判别分析或主成分分析。但是，PLS回归可用于这种情况以及许多其他不适合使用多元分析工具的情况。