线性回归算法

喂★借个微笑

已于 2022-07-15 20:17:00 修改

阅读量281

点赞数

分类专栏：机器学习学习笔记文章标签：算法线性回归机器学习

于 2022-07-12 21:20:02 首次发布

本文链接：https://blog.csdn.net/qq_52804425/article/details/125037284

版权

机器学习学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

线性回归算法

3.1 线性回归基本概念
3.2 线性回归优化算法
- 3.2.1 线性回归求解
- 3.2.2 特征标准化
3.3 多项式回归
3.4 线性回归的正则化算法
3.5 线性回归的特征选择算法
- 3.5.1 向前逐步回归|向后逐步回归
- 3.5.2 分段回归

源码传送门

3.1 线性回归基本概念

3.1.1 线性模型

机器学习将一个形如
$h_{w,b}(x) = <x,y>+b \tag{3.1}$
的 $\mathbb{R^n}\to\mathbb{R}$ 的函数称为一个线性模型，上式中 $w,b\in\mathbb{R^n}$ 均为 $n$ 维向量， $b\in\mathbb{R}$ 为偏置项。 $< w, x >$ 表示 $w$ 与 $x$ 的内积。当 $n = 1$ 时，线性模型表示一条直线； $n = 2$ 时，线性模型表示个超平面；当 $n\geq3$ 时，表示 $n$ 维空间的超平面。
一般情况下，线性回归算法实际上是一个经验损失最小化算法

线性回归算法
样本空间 $X\subseteq\mathbb{R^n}$
输入： $m$ 条训练数据 $S=\{(x^{(1) },y^{(1)}),(x^{(2) },y^{(2)}),...,(x^{(m) },y^{(m)}) \}$
输出：线性模型 $h_{w^*,b^*}(x)=<w^*,x>+b^*$ ，使得 $w^*、b^*$ 为优化问题
$\underset{w\in \mathbb{R},b\in \mathbb{R}}{min}{1\over m}\sum_{i=1}^m(<w,x^{(i)}>+b-y^{(i)})^2$
的最优解

3.1.2 均方误差

均方误差：将线性回归目标函数
$\underset{w\in \mathbb{R},b\in \mathbb{R}}{min}{1\over m}\sum_{i=1}^m(<w,x^{(i)}>+b-y^{(i)})^2 \tag{3.2}$
称为均方误差
下面是均方误差线性模型的结果：
在这里插入图片描述

首先解释以下均方误差的几何意义，在几何学中将一点 $P$ 与直线 $L$ 之间纵向距离 $d$ 的平方称为直线 $L$ 对 $P$ 点的拟合误差。 $P$ 到 $L$ 的纵向距离为 $P$ 在 $L$ 上沿纵轴方向的投影点 $Q$ 与 $P$ 之间的距离。（文字看不懂直接看图doge）
在这里插入图片描述
这里可能就会产生疑问，为什么要加平方？
因为误差有正负，不平方会相互抵消掉。
那为什么不使用绝对值的和作为误差，其实完全可以使用绝对值，形式如下：
$\underset{w\in \mathbb{R},b\in \mathbb{R}}{min}{1\over m}\sum_{i=1}^m|<w,x^{(i)}>+b-y^{(i)}|$
不采用上面形式的原因我知道的是，绝对值函数不是处处可微，在迭代计算梯度时需要消耗额外的资源开销

3.1.3 似然函数

似然函数：给定随变量 $Y$ ，定义
$Like(w|y^{(1)},y^{(2)}, \cdots ,y^{(m)})=\prod_{i=1}^np_w(Y=y^{(i)}) \tag{3.3}$
为 $Y$ 的 $m$ 个独立采样恰为 $y^{(1)},y^{(2)},...,y^{(m)}$ 的概率，称其为概率分布 $p_w$ 关于 $y^{(1)},y^{(2)},...,y^{(m)}$ 的似然函数。
以下是概率统计中最大似然原则：如果 $y^{(1)},y^{(2)},...,y^{(m)}$ 为 $Y$ 的 $m$ 个独立采样，而 $w^*$ 是使得似然函数最大化的一组参数即：
$w^*=\underset{w\in \mathbb{R^n}}{argmax} Like(w|y^{(1)},y^{(2)}, \cdots ,y^{(m)})\tag{3.4}$
则可以判定 $Y$ 的概率分布是 $p_{w^*}$
就是说取定一组参数 $w$ 可以使所有样本在这组参数下的概率之积最大
用一个例子解释：
eg：抛三枚硬币三次的结果是正，正，反
正面朝上则 $Y = 1$ ；否则， $Y = 0$ ，其中 $p_w(Y=1)=w$ 。则似然函数为
$Like(w|正正反)=w^2(1-w)\tag{3.5}$
求导容易解出 $w^*=2/3$ 时似然函数取得最大值，根据似然函数判断出正面的概率为 $2/3$ 。

3.1.4 均方误差的统计学意义

明白似然函数之后来看以下均方误差的统计意义
在线性回归中，有一个对标签分布的基本假设。也就是说，对任意样本 $x$ ，标签分布 $D_x$ 都是一个正态分布。因此，如果模型 $h_{w,b}(x)=<w,x>+b$ 为标签的期望，则 $D_x=N(h_{w,b}(x),\sigma)$ ，为简化记号，这里假设 $\sigma=1$ ，所以标签分布属于参数化的概率分布族
$P=\{N(h_{w,b}(x),1):w\in\mathbb{R^n},b\in\mathbb{R} \}\tag{3.6}$
根据线性模型的定义，可以得出似然函数为
$Like(w,b|y^{(1)},y^{(2)}, \cdots ,y^{(m)})=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}}e^{-(h_{w,b}(x^{(i)})-y^{(i)})^2} \tag{3.7}$
上式中的似然函数与均方误差有以下关系：
$\underset{w,b}{argmax}Like(w,b|y^{(1)},y^{(2)}, \cdots ,y^{(m)})=\underset{w,b}{argmin}\frac{1}{m}\sum_{i=1}^m(h_{w,b}(x^{(i)})-y^{(i)})^2 \tag{3.8}$
上式是由（3.7）式的似然函数取对数，可将乘积转化为更简单的和式

最后让 $\widetilde{x}=(1,x),\widetilde{w}=(b,w)$ ，然后还将 $\widetilde{x},\widetilde{w}$ 表示成 $x, w$

线性回归算法(简化记号)
样本空间 $X\subseteq\mathbb{R^n}$ 每个样本首位是1
输入： $m$ 条训练数据 $S=\{(x^{(1) },y^{(1)}),(x^{(2) },y^{(2)}),...,(x^{(m) },y^{(m)}) \}$
输出：线性模型 $h_{w^*,b^*}(x)=<w^*,x>$ ，使得 $w^*、b^*$ 为优化问题
$\underset{w\in \mathbb{R}}{min}{1\over m}\sum_{i=1}^m(<w,x^{(i)}>-y^{(i)})^2$
的最优解

3.1.5 决定系数

决定系数就是用来评价模型好坏的一个指标
决定系数：设 $\overline{y}=\frac1m\sum_{i=1}^my^{(i)}$ ，定义
$R^2=1-\frac{\sum_{i=1}^m(h(x^{(i)}) - y^{(i)})^2}{\sum_{i=1}^m(\overline{y}-y^{(i)})^2}\tag{3.11}$
决定系数是将平均值模型作为标尺
$R^2$ 值越接近于1拟合效果越好

3.2 线性回归优化算法

线性回归的均方误差：
$F(w)=\frac1m\sum_{i=1}^m(<w,x^{(i)}>-y^{(i)})^2 \tag{3.13}$
这是关于 $w$ 的可微凸函数，所以线性回归是一个凸优化问题。
凸集的定义为：其几何意义表示为：如果集合C中任意2个元素连线上的点也在集合C中，则C为凸集。
凸函数可以理解为函数上任意两点的连线在函数上方。
凸优化问题就上在凸集和凸函数条件下的优化问题。

3.2.1 线性回归求解

首先定义 $X$ 和 $y$ 为如下矩阵：
$X=\begin{bmatrix}x^{(1)T} \\ x^{(2)T}\\ \vdots \\x^{(m)T} \end{bmatrix},\quad y=\begin{bmatrix}y^{(1)} \\ y^{(2)}\\ \vdots \\y^{(m)} \end{bmatrix}$
$X$ 是一个 $m\times n$ 矩阵， $y$ 是一个 $m\times 1$ 矩阵， $X$ 称为特征矩阵， $y$ 称为标签向量。 $n$ 表示每个数据有n个特征， $m$ 表示有m条数据
所以线性回归的目标函数等价于：
$\underset{w\in\mathbb{R^n}}{min}F(w)=\begin{Vmatrix} Xw-y \end{Vmatrix}^2 \tag{3.14}$
然后求出最优解就比较容易了，因为是凸函数，并且集合是全集，所以对(3.14)求导，导数值等于0的点就是最优解。
$\nabla F(w)=2X^TXw-2X^Ty=0 \tag{3.15}$
整理即可得出：
$w^*=(X^TX)^{-1}X^Ty \tag{3.16}$
(3.15)式也成为正规方程。在 $X^TX$ 可逆时方程有唯一解(3.16)

3.2.2 特征标准化

例如在房价预测问题中人口数与卧室数，这两个特征分量的量级是不同的，量级较大的特征将主导模型的训练，可能忽视较小量级的特征分量。特征标准化就是把每个特征都转化到同一个量级。
在概率论中公式
$x_j^{(i)}\leftarrow \frac{x_j^{(i)}-\mu_j }{\sqrt{\sigma_j}}$
$x_j^{(i)} \sim N(0,1)$ 这只是一种方法，在实际应用中可根据情况选择

3.3 多项式回归

首先多项式回归和线性回归的区别如果模型中 $x$ 都是一次就是线性回归，大于一次就是多项式回归。下面就是多项式回归
在这里插入图片描述
多项式回归真的和线性回归没啥区别直接举个例子就能理解
eg： $x=(1,x_1,x_2)$ ，对x进行拟合就是线性模型，结果是一个平面
对 $x$ 处理一下变成 $x=(1,x_1,x_2,x_1x_2,x_1^2,x_2^2)$ ，再对 $x$ 拟合结果就是一个曲面，

from sklearn.preprocessing import PolynomialFeatures
#这个函数可以将数据变为指定的n次多项式

3.4 线性回归的正则化算法

3.4.1 $L 2$ 正则化|岭回归

线性回归的 $L_2$ 正则化:
$\underset{w\in\mathbb{R^n}}{min}F(w)=\frac1m\sum_{i=1}^m\begin{Vmatrix} Xw-y \end{Vmatrix}^2 +\lambda\begin{Vmatrix} w \end{Vmatrix}^2$
前面有说到正规方程的解 $w^*=(X^TX)^{-1}X^Ty$ ，必须要 $X^TX$ 可逆，当特征个数n大于训练数据数m时， $X^TX$ 不可逆，而当 $X^TX$ 不可逆时均方误差函数图像会呈现山岭状。
在这里插入图片描述
而在加入 $L_2$ 正则化项之后

函数从凸函数变成严格凸函数，最优解变得唯一。
严格凸函数的证明可以去搜Hessian矩阵半正定。
当然这里只是说了加上正则化项的函数凸性的变化，其实加入正则化项的目的主要是减小过拟合。

3.4.2 $L 2$ 正则化|岭回归求解

岭回归目标函数：
$\underset{w\in\mathbb{R^n}}{min}F(w)=\frac1m\sum_{i=1}^m\begin{Vmatrix} Xw-y \end{Vmatrix}^2 +\lambda\begin{Vmatrix} w \end{Vmatrix}^2$
对上式求导：
$\nabla F(w)=X^T(Xw^*-y)+m\lambda w^*=0$
最优解：
$w^*=(X^TX+m\lambda I)^{-1}X^Ty$
其中 $I$ 是单位阵，并且 $X^TX+m\lambda I$ 是可逆的
在这里插入图片描述

3.4.3 $L_1$ 正则化|Lasso回归，弹性网回归

Lasso回归：
$\underset{w\in\mathbb{R^n}}{min}F(w)=\frac1m\sum_{i=1}^m\begin{Vmatrix} Xw-y \end{Vmatrix}^2 +\lambda |w |$
弹性网回归：
$\underset{w\in\mathbb{R^n}}{min}F(w)=\frac1m\sum_{i=1}^m\begin{Vmatrix} Xw-y \end{Vmatrix}^2 +r\lambda\begin{Vmatrix} w \end{Vmatrix}^2 + (1-r)\lambda |w|$
带绝对值的优化问题在后面搜索算法中会讲到，这里就不过多的说。

3.5 线性回归的特征选择算法

3.5.1 向前逐步回归|向后逐步回归

向前逐步回归：
简单来说就是在引入一个特征后能显著的减小模型的均方误差，则认为该特征与标签有关联；否则认为该特征与标签无关联。

#完成文件放到最后
#向前逐步回归算法
    def forward_selection(self, X, y):
        m,n = X.shape 
        A, C = [0], [i for i in range(1,n)]#初始化，A开始只有一个特征
        for i in range(n-1):
            MSE_A = self.compute_mse(X[:,A], y)
            MSE_min, j_min = float("inf"), -1
            j_min = -1
            for j in C: #找出使均方误差下降最大的特征
                MSE_j = self.compute_mse(X[:, A+[j]], y)
                if MSE_j < MSE_min:
                    MSE_min, j_min = MSE_j, j
            if self.f_test(MSE_A, MSE_min, m):#这里是一个f检验，判断是否接受
                A.append(j_min) # 接受就在A中加入特征
                C.remove(j_min) 
            else:
                break
        self.w = self.fit(X[:, A], y)
        self.A = A

向后逐步回归：
和向前逐步回归相反，首先选择所有特征，然后根据均方误差受否显著增大来剔除已选择的特征。

3.5.2 分段回归

先说以下相关系数 $u,v\in \mathbb{R^n}$ 定义
$corr(u,v)=\frac{<u,v>}{\begin{Vmatrix} u\end{Vmatrix}\begin{Vmatrix} v \end{Vmatrix}}$
为 $u, v$ 之间的相关系数（其实就是余弦cos）
如果相关系数的绝对值越大即越接近于1，则 $u, v$ 之间的相关性越强，相关系数正负，表明正相关还是负相关。
分段回归就是在每一次循环中，首先计算当前参数对应模型的误差 $r = y - Xw$ 然后找出与 $r$ 相关系数的绝对值最高的特征 $j^*$ （特征矩阵 $X$ 的一列），然后根据正负相关使参数 $w$ 的沿着特征 $j^*$ （ $w$ 的第j个分量）前进一步。
下面是迭代过程中参数 $w$ 分量的变化。
在这里插入图片描述