Python手撸机器学习系列（五）：线性回归与岭回归（最小二乘法求解）

最新推荐文章于 2024-02-12 11:10:38 发布

锌a

最新推荐文章于 2024-02-12 11:10:38 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习计算机视觉：从0基础开始的奋斗历程文章标签：机器学习线性回归最小二乘法

本文链接：https://blog.csdn.net/qq_43601378/article/details/121292714

版权

计算机视觉：从0基础开始的奋斗历程同时被 2 个专栏收录

35 篇文章 22 订阅

订阅专栏

机器学习

21 篇文章 27 订阅

订阅专栏

线性回归

一、原理

线性回归应该是最简单的机器学习算法了，我们以最小二乘法为基础来进行求解

1.1 数据输入

设数据表现形式为：

$Data = {(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$

其中 $x_i∈R^p,\ y_i∈R,\ i=1,2,...,N$

就是说有N条数据，每条数据分为特征 $x_i$ 和对应的标签值 $y_i$ ，其中 $x_i$ 为 $p * 1$ 维，也就是说有 $p$ 个特征， $x_i$ 表现为列向量

用 $X$ 表示特征矩阵为
$(x_1,x_2,..,x_N) = \left[\begin{matrix} x_1^T\\ x_2^T\\ \vdots\\ x_N^T\end{matrix}\right]=\left[\begin{matrix} x_{11}&x_{12}&\cdots&x_{1p} \\ x_{21}&x_{22}&\cdots&x_{2p}\\\vdots&\vdots&\ddots&\cdots\\ x_{N1}&x_{N2}&\cdots&x_{Np}\end{matrix}\right]_{N×p}^T$

用 $Y$ 表示标签矩阵为：
$=\left[\begin{matrix} y_1\\ y_2 \\ \vdots \\y_N \end{matrix}\right]_{N×1}$
线性回归的目的在于拟合一个函数来根据特征值预测标签值，当数据为平面坐标点时（横坐标为x纵坐标为y），拟合的函数表现为一条坐标平面直线。

我们需要拟合函数的权重 $W$ ，其维度为 $p \times 1$ ，当数据为平面坐标点时为一个数（ $1 \times 1$ 的矩阵）
$=\left[\begin{matrix} W_1\\ W_2 \\ \vdots \\W_N \end{matrix}\right]_{p×1}$

1.2 最小二乘法一般解法

显然，用最小二乘法求解，其损失函数为 $M S E$ :
$\begin{aligned} L(W) &= \displaystyle\sum_{i=1}^N||W^Tx_i-y_i||^2 \\&=\displaystyle\sum_{i=1}^N(W^Tx_i-y_i)^2 \\&=\left[W^Tx_1-y_1,W^Tx_2-y_2,...,W^Tx_N-y_N\right]\left[\begin{matrix} W^Tx_1-y_1\\ W^Tx_2-y_2\\ \vdots\\ W^Tx_N-y_B\end{matrix}\right]\\&=(W^TX^T-Y^T)(XW-Y)\\&=W^TX^TXW-W^TX^TY-Y^TXW+Y^TY\\&=W^TX^TXW-2W^TX^TY+Y^TY\\ \end{aligned}\\$
使用损失函数对 $W$ 求导：
$\large \frac{\partial L(W)}{\partial W} = 2X^TXW-2X^TY=0$
可得
$\begin{aligned} X^TXW &=X^TY \\ W&=(X^TX)^{-1}X^TY\\ \end{aligned}$
即求得参数 $W$ ，其中 $X^TX)^{-1}X^T$ 被称为 $X$ 的伪逆矩阵

1.3 最小二乘法的几何理解

我们将 $X$ 理解为一种特征空间，比如说，现在由 $x_1、x_2$ 两个特征组成了一个平面，而使用 $Y$ 向该平面投影：

请添加图片描述

投影可以理解为在向量 $x_1、x_2$ 的线性组合，则可以找到一组 $w$ 用来表示这段线性组合的权重，即 $x_1,x_2][w_1,w_2]^T$

扩展到全部的 $X$ 和 $Y$ ，投影就是 $X W$ ，而根据向量的减法，垂直于平面的那一段可以描述为 $Y - X W$

垂直的向量内积为0，即：
$\begin{aligned} X^T(Y-XW) &= 0\\ X^TY&=X^TXW\\ W &= (X^TX)^{-1}X^TY \end{aligned}$
与之前使用求导算得的 $W$ 一致

二、正则化与岭回归

对于上述问题，求得的线性回归损失函数及其 $W$ 为：
$\begin{aligned} L(W) &= \displaystyle\sum_{i=1}^N||W^Tx_i-y_i||^2\\W&=(X^TX)^{-1}X^TY \end{aligned}$
而在实际应用中， $X^TX)$ 可能是不可逆的，比如特征大于样本时，而且样本过少特征过多还容易造成过拟合，由此提出了正则化的解决方案。

正则化的框架为：
$L(W)+\lambda P(W)$
其中 $\lambda P(w)$ 被称为惩罚项

一般正则化可以分为L1正则化和L2正则化：

L1正则化：也被称作Lasso，此时 $P(W) = ||W||_1$ ，即 $W$ 的一范式
L2正则化：也被称作Ridge和岭回归，此时 $P(W)=||W||_2^2=W^TW$

在这里我们主要介绍L2正则化，也就是岭回归

在岭回归的情况下，损失函数就变为：
$\begin{aligned} J(W)&=\displaystyle\sum_{i=1}^N||W^Tx_i-y_i||^2+\lambda W^TW \\ &=(W^TX^T-Y^T)(XW-Y)+\lambda W^TW\\ &=W^TX^TXW-2W^TX^TY+Y^TY+\lambda W^TW\\ &=W^T(X^TX+\lambda I)W-2W^TX^TY+Y^TY \end{aligned}$
对 $W$ 进行求导：
$\frac{\partial J(W)}{\partial W} = 2(X^TX+\lambda I)W - 2X^TY = 0$
求得
$(X^TX+\lambda I)^{-1}X^TY$
此时 $(X^TX+\lambda I)$ 一定可逆，理由如下：

假设 $X^TX$ 不可逆，即不满秩，其可以变换为某一行或某一列为全0的矩阵：
$X^TX = \left[\begin{matrix} a_{11}&a_{12} &a_{13} &\cdots & a_{1n} \\0&a_{22} &a_{23} &\cdots & a_{2n} \\0&0 &a_{33} &\cdots & a_{3n} \\ \vdots&\vdots &\vdots &\ddots & \vdots \\0&0 &0 &\cdots & 0 \end{matrix} \right]$

$X^TX+\lambda I = \left[\begin{matrix} a_{11}+\lambda&a_{12} &a_{13} &\cdots & a_{1n} \\0&a_{22}+\lambda &a_{23} &\cdots & a_{2n} \\0&0 &a_{33}+\lambda &\cdots & a_{3n} \\ \vdots&\vdots &\vdots &\ddots & \vdots \\0&0 &0 &\cdots & \lambda \end{matrix} \right]$

此时不存在全为0的行或列，矩阵满秩可逆，当然，还是有特殊清况，比如：

$\lambda=0$
原本矩阵中存在对象线上元素为 $-\lambda$ ，其他元素都为0的行或列

当然，这些情况可以通过调节 $\lambda$ 来解决

三、代码实现

梯度下降法，使用之前公式中损失函数 $L$ 对 $W$ 的求导作为梯度，每次乘上学习率进行衰减，即：

$d_W = 2X^TXW-2X^TY$

$W = W-lr*d_W$

公式法则是直接用最后的公式计算 $X$ 的伪逆矩阵乘上 $Y$

岭回归只需要在原始基础上加上惩罚项

其实两种方法实现起来几乎是一模一样的：

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.linear_model import  LinearRegression

def get_points():
    #获取坐标点
    point = [[3,3],[4,3],[2,5],[6,7],[8,10]]
    X = np.array([x[0] for x in point])
    Y = np.array([x[1] for x in point])
    X = X.reshape(X.shape[0],1)
    Y = Y.reshape(Y.shape[0],1)

    #另一组点，此时x为二维，画图函数无效，记得注释掉
    # X = np.array([[1, 2], [3, 4], [3, 6]])
    # Y = np.array([3, 6, 9])
    # X = X.reshape(X.shape[0],2)
    # Y = Y.reshape(Y.shape[0],1)
    # return X,Y.reshape(Y.shape[0],1)
    return X,Y

def get_house():
    #波士顿房价数据集
    data,target = load_boston(return_X_y=True)
    return data,target.reshape(target.shape[0],1)

def cal_w(X,Y):
    #公式直接计算W
    w = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(Y)
    return w

def Ridge_w(X,Y):
    #岭回归，可以通过调节lambda，此处为a来改变直线
    a = 5
    w = np.linalg.inv(X.T.dot(X)+a*np.eye(X.shape[1])).dot(X.T).dot(Y)
    return w

def gradient(X,Y):
    #梯度下降法
    lr = 0.01
    epochs = 2
    w = np.zeros((X.shape[1],1))
    for epoch in range(epochs):
        dw = X.T.dot(X).dot(w)-X.T.dot(Y)
        w -= lr*dw
    return w

if __name__ == '__main__':
    X,Y = get_points()
    w1 = gradient(X,Y)
    w2 = cal_w(X,Y)
    w3 = Ridge_w(X,Y)
    plt.scatter(X, Y, c='b',label = 'points')
    plt.plot(np.arange(1, 9), w1[0][0] * np.arange(1, 9), c='r',label = 'line_gradient')
    plt.plot(np.arange(1, 9), w2[0][0] * np.arange(1, 9), c='g',label = 'line_cal_w')
    plt.plot(np.arange(1, 9), w3[0][0] * np.arange(1, 9), c='y',label = 'Ridge_cal_w')
    plt.legend()
    plt.show()