机器学习笔记(2)---监督学习之正规方程

最新推荐文章于 2022-06-16 20:16:10 发布

sweird

最新推荐文章于 2022-06-16 20:16:10 发布

阅读量763

点赞数

分类专栏：机器学习机器学习入门文章标签：机器学习正规方程方向导数梯度监督学习

本文链接：https://blog.csdn.net/rosetta/article/details/74115085

版权

机器学习入门同时被 2 个专栏收录

16 篇文章 4 订阅

订阅专栏

机器学习

13 篇文章 0 订阅

订阅专栏

前言
正规方程
- 公式推导

前言

本机器学习笔记是跟着原斯坦福大学吴恩达老师cs229课程学习后做的课后笔记。每次课程都会涉及到很多数学知识，我在记录课程核心内容的同时，会把数学基础知识在其它博文中单独记下，并在《机器学习笔记》系列博文中用到时给出链接。
笔记都是按照本人的理解去写的，给出的数学基础知识也只是本人薄弱的地方，并不适合所有人。如有问题欢迎给我留言。
数学公式使用Letex编辑，原文博客http://blog.csdn.net/rosetta

正规方程

上一节梯度下降法可以计算出能使 $j$ 最小化的 $\theta$ 值。另外还有一种能计算出使 $j$ 最小化的 $\theta$ 值的方法叫正规方程（Normal Equations），这种算法会更精确，并且不需要像梯度下降法一样需要迭代。
本节课需要用到大量的数学知识，主要是矩阵、矩阵求导、向量、梯度等数学概念，由于毕业后都数学都忘完了，为了搞清楚这些东西，花了好长一段时间，后续我会整理相关基础，下面先开始使用正规方程推导 $\theta$ 的过程。
先定义设计矩阵design matrix $X$ 为 $m*n$ 大小的矩阵，它表示训练样本，

X = ⎧ ⎩ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ - - - x (1) T x (2) T ⋮ x (m) T - - - ⎫ ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪

$X=\left\lgroup\begin{array}{ccc} - & {x^{(1)}}^T & - \\ - & {x^{(2)}}^T & - \\ & \vdots\ & \\ - & {x^{(m)}}^T & - \\ \end{array}\right\rgroup$
定义

y⃗ y → $\vec{y}$ 为

m m $m$ 维向量，它包含所有训练集中的目标结果值

\vec{y} = ⟮ \begin{array}{ccc} y^{(1)} \\ y^{(2)} \\ ⋮ \\ y^{(m)} \end{array} ⟯

$\vec{y}=\left\lgroup\begin{array}{ccc} y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(m)}\end{array}\right\rgroup$

X θ = ⎧ ⎩ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ x (1) T θ x (2) T θ ⋮ x (m) T θ ⎫ ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ = ⎧ ⎩ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ h θ (x (1)) h θ (x (2)) ⋮ h θ (x (m)) ⎫ ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪

$X\theta=\left\lgroup\begin{array}{ccc} {x^{(1)}}^T\theta \\ {x^{(2)}}^T\theta \\ \vdots \\ {x^{(m)}}^T\theta \end{array}\right\rgroup = \left\lgroup\begin{array}{ccc} h_\theta(x^{(1)}) \\ h_\theta(x^{(2)}) \\ \vdots \\ h_\theta(x^{(m)}) \end{array}\right\rgroup$
所以

X θ - y ⃗ = ⎧ ⎩ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ h θ (x (1)) - y (1) h θ (x (2)) - y (2) ⋮ h θ (x (m)) - y (m) ⎫ ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪

$X\theta-\vec{y}=\left\lgroup\begin{array}{ccc} h_\theta(x^{(1)}) -{y}^{(1)} \\ h_\theta(x^{(2)}) -{y}^{(2)} \\ \vdots \\ h_\theta(x^{(m)}) -{y}^{(m)} \end{array}\right\rgroup$
对于向量

z z $z$ ，有公式

z^{T} z = \sum_{i} z_{i}^{2}

$z^Tz=\sum_{i}z_i^2$ ,所以：

1 2 (X θ - y ⃗) T (X θ - y ⃗) = 1 2 \sum i = 1 m (h θ (x i) - y (i)) 2 = J (θ)

$\frac{1}{2}(X\theta-\vec{y})^T(X\theta-\vec{y})=\frac{1}{2}\sum_{i=1}^m(h_\theta(x^{i})-y^{(i)})^2=J(\theta)$
为了求出最小的

θ θ $\theta$ ，需使

▽θJ(θ)=0⃗ ▽ θ J ( θ ) = 0 → $\bigtriangledown_\theta J(\theta)=\vec{0}$ ,则：

▽ θ J (θ) = = = = = = = = = ▽ θ 1 2 (X θ - y ⃗) T (X θ - y ⃗) 1 2 ▽ θ [(θ T X T - y ⃗ T) (X θ - y ⃗)] 1 2 ▽ θ (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗) 1 2 ▽ θ t r (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗) 1 2 ▽ θ t r (θ T X T X θ - y ⃗ T X θ - y ⃗ T X θ + y ⃗ T y ⃗) 1 2 ▽ θ t r (θ θ T X T X - y ⃗ T X θ - y ⃗ T X θ + y ⃗ T y ⃗) 1 2 ▽ θ [t r (θ θ T X T X) - 2 t r (y ⃗ T X θ)] 1 2 (X T X θ + X T X θ - 2 X T y ⃗) X T X θ - X T y ⃗ (1) (2) (3) (4) (5) (6) (7) (8) (9)

$\begin{eqnarray} \bigtriangledown_\theta J(\theta) &=& \bigtriangledown_\theta \frac{1}{2}(X\theta-\vec{y})^T(X\theta-\vec{y}) \tag 1 \\ &=& \frac{1}{2}\bigtriangledown_\theta[(\color\red{\theta^TX^T}-\vec{y}^T)(X\theta-\vec{y})] \tag 2 \\ &=& \frac{1}{2}\bigtriangledown_\theta(\theta^TX^TX\theta-\theta^TX^T\vec{y}-\vec{y}^TX\theta+\vec{y}^T\vec{y}) \tag 3 \\ &=& \frac{1}{2}\bigtriangledown_\theta \color\red{tr}(\theta^TX^TX\theta-\theta^TX^T\vec{y}-\vec{y}^TX\theta+\vec{y}^T\vec{y}) \tag 4 \\ &=& \frac{1}{2}\bigtriangledown_\theta tr(\theta^TX^TX\theta-\color\red{\vec{y}^TX\theta}-\vec{y}^TX\theta+\vec{y}^T\vec{y}) \tag 5 \\ &=&\frac{1}{2}\bigtriangledown_\theta tr(\color\red{\theta}\theta^TX^TX-\vec{y}^TX\theta-\vec{y}^TX\theta+\vec{y}^T\vec{y}) \tag 6 \\ &=& \frac{1}{2}\bigtriangledown_\theta[\color{blue}{tr(\theta\theta^TX^TX)}-2\color{fuchsia}{tr(\vec{y}^TX\theta)}] \tag 7 \\ &=& \frac{1}{2}(\color{blue}{X^TX\theta+X^TX\theta}-2\color{fuchsia}{X^T\vec{y}}) \tag 8\\ &=& X^TX\theta-X^T\vec{y} \tag 9 \\ \end{eqnarray}$

式子9就叫做正规方程，则 $X^TX\theta-X^T\vec{y} = \vec{0}, \quad X^TX\theta = X^T\vec{y} ,\quad$ 最终计算出 $\theta$ ：

θ = (X T X) - 1 X T y ⃗ (10)

$\theta = (X^TX)^{-1}X^T\vec{y} \tag {10}$
所以从上述推导过程来看，求

θ θ $\theta$ 不需要进行迭代，但需要求

XTX X T X $X^TX$ 逆矩阵。

公式推导

下面详细解释上述公式的每一步推导过程：
1. 1到2式，做转置，使用公式 $(AB)^T=B^TA^T$
2. 2到3式直接展开
3. 3到4式，实数的迹还是它本身，所以加入迹符号 $tr$ 后值不变
4. 4到5式，因为 $\theta^TX^T\vec{y}$ 是个实数，实数的转置还是它本身，所以 $\theta^TX^T\vec{y}=(\theta^TX^T\vec{y})^T=\vec{y}X\theta$ 。这里 $\theta^TX^T\vec{y}$ 为什么是实数？
5. 5到6式，使用公式 $trABC=trCAB=trBCA$ ，所以 $\theta^TX^TX\theta=\theta\theta^TX^TX$
6. 6到7式，由于 $\vec{y}^T\vec{y}$ 和 $\theta$ 无关，所以对它求导为0，把这去掉，然后对式子做一个整理。
7. 7到8式，使用了两个公式，蓝色部分使用：

▽ A t r A B A T C = C A B + C T A B T

$\bigtriangledown_{A}trABA^TC=CAB+C^TAB^T$ 所以

▽ θ t r (θ    A I    B θ T    A T X T X      C) = X T X      C θ    A I    B + X T X      C T θ    A I T    B T = X T X θ + X T X θ

$\bigtriangledown_{\theta}tr(\underbrace{\theta}_{A} \underbrace{I}_{B} \underbrace{\theta^T}_{A^T} \underbrace{X^TX}_{C})=\underbrace{X^TX}_{C} \underbrace{\theta}_{A} \underbrace{I}_{B}+\underbrace{X^TX}_{C^T}\underbrace{\theta}_{A}\underbrace{I^T}_{B^T} \\=X^TX\theta +X^TX\theta$ 樱红色使用公式: