线性回归（四）—— 标准方程法

最新推荐文章于 2022-01-05 10:01:15 发布

木子六日

最新推荐文章于 2022-01-05 10:01:15 发布

阅读量1.4k

点赞数

分类专栏：机器学习/深度学习文章标签：机器学习线性代数 python 人工智能

本文链接：https://blog.csdn.net/Paul_1i/article/details/104032739

版权

机器学习/深度学习专栏收录该内容

22 篇文章 2 订阅

订阅专栏

标准方程法

预备知识

下文均使用大写字母表示矩阵，小写字母带下标表示变量，

小写字母无下标表示向量
一个标量多元函数对一个向量的导数是这样定义的

我们假设这个函数是 $f(x)=w_0x_0+w_1x_1+…+w_nx_n$

那么
$\frac{\partial f(x)}{\partial x}=[\frac{\partial f(x)}{\partial x_0},\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},…,\frac{\partial f(x)}{\partial x_n}]^T$
结论一：
$\frac{\partial \beta^Tx}{\partial x}=\beta$
证明：这个很简单,把这个f(x)写出来就一目了然了

$f(x)=\beta_1x_1+\beta_2x_2+\beta_3x_3+…+\beta_nx_n$

对 $x_i$ 求导就是 $\beta_i$
结论二：
$\frac{\partial x^TAx}{\partial x}=(A+A^T)x$
证明：这个的证明稍微麻烦一点，但对本人来说还是过于easy。还是只要把f(x)展开就行了。

$[x_1,x_2,…,x_n] \left[ \begin{matrix} a_{11} & a_{12} & … & a_{1n}\\ a_{21} & a_{22} & … & a_{2n}\\ … & … & ... & ...\\ a_{n1} & a_{n2} & … & a_{nn} \end{matrix} \right] \left[ \begin{matrix} x_1\\ x_2\\ ...\\ x_n \end{matrix} \right]=\sum_{i=1}^{n}a_{ii}x_i^2+\sum_{i=1}^{n-1}\sum_{j=i+1}^{n}(a_{ij}+a_{ji})x_ix_j$
比如f(x)对 $x_1$ 求导就得到 $2a_{11}x_1+(a_{21}+a_{12})x_2+...+(a_{n1}+a_{1n})x_n$

写成矩阵形式就是
$\left[ \begin{matrix} 2a_{11},(a_{12}+a_{21}),...,(a_{1n}+a_{n1}) \end{matrix} \right] \left[ \begin{matrix} x_1\\ x_2\\ ...\\ x_n \end{matrix} \right]$

那f(x)对整个x向量求导就可以写成
$\left[ \begin{matrix} 2a_{11},(a_{12}+a_{21}),...,(a_{1n}+a_{n1})\\ (a_{21}+a_{12}),2a_{22},...,(a_{2n}+a_{n2})\\ ......,.....,......,......\\ (a_{n1}+a_{1n}),(a_{n2}+a_{2n}),...,2a_{nn} \end{matrix} \right] \left[ \begin{matrix} x_1\\ x_2\\ ...\\ x_n \end{matrix} \right]$

将左侧的大矩阵拆开，就可以得到 $A+A^T$ ，故 $\frac{\partial x^TAx}{\partial x}=(A+A^T)x$

原理

梯度下降法是一步步迭代找到的极值点，但是标准方程法是直接将所有回归参数算出来了。

先来看代价函数
$J(w_0,w_1,…,w_n) = \frac{1}{2m}\sum_{i=1}^{m}{(y^i-h_w(x^i))^2}$
如果写成矩阵形式就是
$J(w)=\frac{1}{2m}(y-Xw)^T(y-Xw)$
根据极值点偏导数为0可得
$\frac{\partial (y-Xw)^T(y-Xw)}{\partial w}=0$

$\frac{\partial (y-Xw)^T(y-Xw)}{\partial w}=\frac{\partial y^Ty}{\partial w}-\frac{\partial y^TXw}{\partial w}-\frac{\partial w^TX^Ty}{\partial w}+\frac{\partial w^TX^TXw}{\partial w}$

易知
$\frac{\partial y^Ty}{\partial w}=0$
根据结论一可得
$\frac{\partial y^TXw}{\partial w}=\frac{\partial (X^Ty)^Tw}{\partial w}=X^Ty$
因为 $y^TXw$ 是标量，所以 $y^TXw=(y^TXw)^T=w^TX^Ty$ ，故
$\frac{\partial w^TX^Ty}{\partial w}=X^Ty$
根据结论二可得
$\frac{\partial w^TX^TXw}{\partial w}=2X^TXw$
代入可得
$0-X^Ty-X^Ty+2X^TXw=0$

$X^TXw=X^Ty$

$w=(X^TX)^{-1}X^Ty$

这样我们就把w向量求出来了。

当然从这里可以看出 $X^TX$ 必须存在逆矩阵，不然无法使用标准方程法求出。

标准方程法实现一元线性回归

# encoding:utf-8
import numpy as np
import matplotlib.pyplot as plt


# 载入数据
data = np.genfromtxt("../data/data.csv", delimiter=',')
x_data = data[:, 0, np.newaxis]
y_data = data[:, 1, np.newaxis]

# 给样本加入偏置项
X_data = np.concatenate((np.ones((100, 1)), x_data), axis=1)


# 定义标准方程法求回归参数
def weights(xArray, yArray):
    xMat = np.mat(xArray)
    yMat = np.mat(yArray)
    xTx = xMat.T * xMat
    
    # 判断矩阵是否存在逆矩阵
    if np.linalg.det(xTx) == 0.0:
        print("无法使用标准方程法计算")
        return
    return xTx.I * xMat.T * yMat


ws = weights(X_data, y_data)
x = np.array([[20], [80]])
plt.plot(x_data, y_data, 'b.')
y = ws[0] + x * ws[1]
plt.plot(x, y, 'r')
plt.show()