一元线性回归-CSDN博客

本文链接：https://blog.csdn.net/qq_37289115/article/details/109174573

一元线性回归

回归主要用于预测数值型数据，根据观测到的数据设计一种模型，描述数据之间蕴含的关系。
在这里插入图片描述
回归的典型例子，就是通过给定的数据点拟合出最优的曲线，在这个例子中面积和房价之间的关系可以近似地表示成一根直线，因此这种模型被称为线性回归，在这个模型中只包含一个自变量x，因此这种线性回归模型被称为一元线性回归。

在一元线性回归模型y=wx+b中，x称为模型变量，w和b称为模型参数，其中w为权重，b为偏置值。

我们要解决的问题就是如何根据样本数据来确定模型参数，w和b呢，

假设有n组样本( $x_1$ , $y_1$ ), ( $x_2$ , $y_2$ ), …( $x_i$ , $y_i$ ), …( $x_n$ , $y_n$ )，下标i是样本的序号， $x_i$ 是样本属性，例如房屋面积， $y_i$ 是样本标记，例如房屋价格。

对于平面中的这n个点可以有无数条直线来拟合它们，那么哪条直线拟合的最好呢？
在这里插入图片描述
假设这是其中的一条拟合直线，这条直线上的值称为估计值用 $\hat{y}$ 表示。

例如这个点表示面积为86.21的房子实际销售的房价是95.3万元，而使用这条直线估计出来的房价是82.5万元左右，也就是说样本标签 $y_i=95.3$ ，而模型估计值 $\hat{y}_i=82.5$ ，我们把样本点实际的标记值和预测值 $\hat{y}$ 之间的误差称为拟合误差，也称为残差。

$\hat{y}$ 是直线上的点，因此值为 $wx_i+b$ ，把它带入残差公式，那么da个点的误差就是 $y_i-(wx_i+b)$ 综合所有的样本点来看最佳拟合直线应该使得所有样本总的拟合误差达到最小，也就是说最佳拟合直线应该使得所有点的残差累计值最小。

损失函数/代价函数
模型的预测值与真实值的不一致程度
- 残差和最小
  $Loss=\sum^n_{i=1}(y_i-\hat{y_i})=\sum^n_{i=1}(\hat{y_i}-(wx_i+b))$
  残差值是有符号的，在这条直线上方的点残差是正的，在这条直线下方的点残差是负的。如果将残茶简单的相加，那么正的残渣值和负的残渣值就会相互抵消，这样做的话有可能每个样本单独的残差都很大，而计算出来的残差的累计核却很小，这样的直线显然不满足我们的预期，因此损失函数的值应该是一个非负的数，那么我们很容易想到可以使用绝对值消除残差中符号的影响
- 残差绝对值和最小
  $Loss=\sum^n_{i=1}|y_i-\hat{y_i}|=\sum^n_{i=1}|\hat{y_i}-(wx_i+b)|$
  使用残差绝对值的和作为损失函数，可以避免正负误差相互抵消的问题，但是求残差和最小是一个求最值的问题，在求函数的最值时，一般要进行求导运算，而绝对值是不利于求导运算的。
- 残差平方和最小
  为了绝对值运算可以将这个公式中的绝对值改为平方，使得所有样本点的残差的平方和最小，这里增加了一个系数1/2，是考虑到对平方项求导后运算方便，这个Loss函数称为平方损失函数。
  $Loss=\frac{1}{2}\sum^n_{i=1}(y_i-\hat{y_i})^2=\frac{1}{2}\sum^n_{i=1}(\hat{y_i}-(wx_i+b))^2$

平方损失函数

平方损失函数不仅计算方便而且有非常好的几何意义，我们来放大这个图看一下，
在这里插入图片描述

A个样本点的坐标是 $x_i, y_i)$ ，通过直线模型估计出来的点坐标是 $(x_i, \hat{y_i})$ ，这是它们之间的欧式距离。平方损失函数中的每一项，其实反映的就是每个样本点和它的估计值之间的欧式距离的大小，因此，所找到的这条直线也就是总体上最接近这些点的直线。

损失函数的两个性质：

非负性：保证样本误差不会相互抵消
一致性：损失函数的值和误差变化一致，单调有界，而且收敛为0。

均方误差
$Loss=\frac{1}{2n}\sum^n_{i=1}(y_i-\hat{y_i})^2=\frac{1}{2n}\sum^n_{i=1}(\hat{y_i}-(wx_i+b))^2$
在实际的编程应用中，我们经常使用它来作为衡量误差的指标，基于均方误差最小化来进行的模型求解的方法，称为最小二乘法。最小二乘法的用途非常广泛，并不仅仅用于线性回归。在线性回归中最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。
在这里插入图片描述

下面我们来看一下求解的过程。
$Loss=\frac{1}{2}\sum^n_{i=1}(y_i-\hat{y_i})^2=\frac{1}{2}\sum^n_{i=1}(\hat{y_i}-(wx_i+b))^2$
在模型求解阶段，所有的样本数据( $x_1$ , $y_1$ ), ( $x_2$ , $y_2$ ), …( $x_i$ , $y_i$ ), …( $x_n$ , $y_n$ )都是已知的模型参数，w和b是变化量，不同的取值，对应不同的直线。