【Machine Learning, Coursera】机器学习Week2 Normal Equation

最新推荐文章于 2020-10-26 21:53:09 发布

Aki-Z

最新推荐文章于 2020-10-26 21:53:09 发布

阅读量246

点赞数 1

分类专栏：机器学习文章标签：机器学习正规方程多变量线性回归

本文链接：https://blog.csdn.net/weixin_42395916/article/details/80790331

版权

机器学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

Linear Regression with Multiple Variables——Normal Equation

对于线性回归问题，用梯度下降法求解参数需要选择α，并且需要多步迭代才能收敛到全局最小值，而用正规方程法可以一次性求解参数。Andrew Ng在视频中直接给出了正规方程求解参数的计算结果

θ = (X T X) - 1 X T y

$\theta=(X^TX)^{-1}X^Ty$

本篇文章给出了一种可能的推导方法。

一、矩阵运算预备知识

1.1 矩阵转置

(A + B) T (A B) T = A T + B T = B T A T

$\begin{align*} (A+B)^T&=A^T+B^T\\ (AB)^T&=B^TA^T \end{align*}$

$\\$

1.2 矩阵求偏导

d ( X T A ) d ( X ) = d ( A T X ) d ( X ) = A

$\frac{d(X^TA)}{d(X)}=\frac{d(A^TX)}{d(X)}=A\\$

d ( X T A X ) d ( X ) = 2 A X

$\frac{d(X^TAX)}{d(X)}=2AX$

$\\$

二、推导过程

对于训练样本集，有

h θ (x (1)) h θ (x (2)) h θ (x (m)) = θ 0 x (1) 0 + θ 1 x (1) 1 + \dots \dots + θ n x (1) n = θ 0 x (2) 0 + θ 1 x (2) 1 + \dots \dots + θ n x (2) n \dots \dots = θ 0 x (m) 0 + θ 1 x (m) 1 + \dots \dots + θ n x (m) n

$\begin{align*} h_\theta(x^{(1)})&=\theta_0x_0^{(1)}+\theta_1x_1^{(1)}+……+\theta_nx_n^{(1)}\\ h_\theta(x^{(2)})&=\theta_0x_0^{(2)}+\theta_1x_1^{(2)}+……+\theta_nx_n^{(2)}\\ &……\\ h_\theta(x^{(m)})&=\theta_0x_0^{(m)}+\theta_1x_1^{(m)}+……+\theta_nx_n^{(m)} \end{align*}$
用向量形式表示，得到

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ h θ (x (1)) h θ (x (2)) ⋮ h θ (x (m)) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ m \times 1 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 0 x (2) 0 ⋮ x (m) 0 x (1) 1 x (2) 1 ⋮ x (m) 1 \dots \dots \dots \dots x (1) n x (2) n ⋮ x (m) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ m \times (n + 1) \times ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 ⋮ θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ (n + 1) \times 1

$\begin{align*} \left[ \begin{array}{c} h_\theta(x^{(1)})\\ h_\theta(x^{(2)})\\ \vdots\\ h_\theta(x^{(m)}) \end{array} \right ]_{m\times1}= \left[ \begin{array}{c,c,c,c} x_0^{(1)} & x_1^{(1)} &… & x_n^{(1)}\\ x_0^{(2)} & x_1^{(2)} &… & x_n^{(2)}\\ \vdots&\vdots&…&\vdots\\ x_0^{(m)} & x_1^{(m)} &… & x_n^{(m)} \end{array} \right ]_{m\times(n+1)} \times{ \left[ \begin{array}{c} \theta_0\\ \theta_1\\ \vdots\\ \theta_n \end{array} \right ]}_{(n+1)\times1} \end{align*}$
即

h θ (x) = X θ

$h_\theta{(x)}=X\theta$
代价函数

J(θ) J ( θ ) $J(\theta)$ 可写为

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 = 1 2 m (X θ - y) T (X θ - y) = 1 2 m (θ T X T X θ - 2 θ T X T y + y T y)

$\begin{align*} J(\theta)&=\dfrac {1}{2m} \displaystyle \sum_{i=1}^m \left (h_\theta(x^{(i)}) - y^{(i)} \right)^2\\ &=\dfrac {1}{2m}(X\theta-y)^T(X\theta-y)\\ &=\dfrac {1}{2m}(\theta^TX^TX\theta-2\theta^TX^Ty+y^Ty) \end{align*}$
最小化代价函数，即需