【学习笔记】斯坦福大学公开课（机器学习）之二：正规方程

最新推荐文章于 2017-11-05 22:21:54 发布

好奇的大白

最新推荐文章于 2017-11-05 22:21:54 发布

阅读量707

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/li_ximin/article/details/62042508

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

梯度下降法是最小化损失函数的方法之一，它通过向梯度下降的方向不停的迭代，从而找到使损失函数最小或者趋于最小的值。而正规方程求解参数，使损失函数最小的方法，不会去依赖不停的迭代，而是直接通过计算来求得使损失函数最小的参数值。
在介绍方程之前，先引入导数矩阵的概念：

有一个函数f：它是m*n的矩阵到一个实数的映射，我们定义f关于自变量矩阵A的导数为：

▽ A f (A) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f \partial A 11 ⋮ \partial f \partial A m 1 \dots ⋱ \dots \partial f \partial A 1 n ⋮ \partial f \partial A m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (1)

$▽_{A}f(A)= \left[ \begin{matrix} \frac{∂f}{∂A_{11}} & \cdots& \frac{∂f}{∂A_{1n}} \\ \vdots & \ddots & \vdots \\ \frac{∂f}{∂A_{m1}} & \cdots & \frac{∂f}{∂A_{mn}} \end{matrix} \tag{1} \right]$
可以看到（1）式中，

▽Af(A) $▽_{A}f(A)$ 是一个m*n阶的矩阵，矩阵内的

(i,j) $(i,j)$ 元素是

∂f∂Aij $\frac{∂f}{∂A_{ij}}$ ，即函数

f $f$ 关于该矩阵内各个位置元素的偏导。这个矩阵就是导数矩阵。
再介绍一个矩阵的迹，它是一个n*n方阵的对角线上元素的和，即如果有一个n*n阶的方阵A，那么他的迹记(trA)为：

t r A = \sum i = 1 n A i i (2)

$trA=\sum_{i=1}^nA_{ii}\tag{2}$
矩阵的迹有如下性质：

t r A B = t r B A

$trAB=trBA$

t r A B C = t r C A B = t r B C A

$trABC = trCAB = trBCA$

t r A B C D = t r D A B C = t r C D A B = t r B C D A

$trABCD = trDABC = trCDAB = trBCDA$
关于矩阵的迹，我们设A和B是方正，a是一个实数，我们有以下性质：

t r A = t r A T

$trA = trA^T$

t r (A + B) = t r A + t r B

$tr(A+B)=trA+trB$

t r a A = a t r A

$traA=atrA$
结合以上的性质，我们可以得到下面的公式：

▽ A t r A B = B T

$▽_{A}trAB=B^T$

▽ A T f (A) = (▽ A f (A)) T (3)

$▽_{A^T}f(A)=(▽_{A}f(A))^T\tag{3}$

▽ A t r A B A T C = C A B + C T A B T (4)

$▽_{A}trABA^TC=CAB+C^TAB^T\tag{4}$

▽ A | A | = | A | (A - 1) T

$▽_{A}|A|=|A|(A^{-1})^T$
有了以上知识为基础，现在把最小二乘法改写成矩阵的形式，以便实现算法。
把训练集中的特征值和目标值都用矩阵来表示，如特征值用矩阵来表示：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ — (x (1)) T — — (x (2)) T — ⋮ — (x (m)) T — ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$X=\left[\begin{matrix} —(x^{(1)})^T—\\ —(x^{(2)})^T—\\ \vdots\\ —(x^{(m)})^T—\\ \end{matrix}\right]$
数据集中的一个样本特征值就是X矩阵中的一行。

目标值用矩阵来表示：

y ⃗ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\vec{y}=\left[\begin{matrix} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(m)}\\ \end{matrix}\right]$
那么

Xθ−y⃗ $Xθ-\vec{y}$ 就可以表示如下所示：

X θ - y ⃗ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ (x (1)) T θ (x (2)) T θ ⋮ (x (m)) T θ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ - ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ h θ (x (1)) - y (1) h θ (x (2)) - y (2) ⋮ h θ (x (m)) - y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$Xθ-\vec{y}=\left[\begin{matrix} (x^{(1)})^Tθ\\ (x^{(2)})^Tθ\\ \vdots\\ (x^{(m)})^Tθ\\ \end{matrix}\right] - \left[\begin{matrix} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(m)}\\ \end{matrix}\right]= \left[\begin{matrix} h_θ(x^{(1)})-y^{(1)}\\ h_θ(x^{(2)})-y^{(2)}\\ \vdots\\ h_θ(x^{(m)})-y^{(m)}\\ \end{matrix}\right]$
最小乘法就可以写成如下形式：

J (θ) = 1 2 \sum i = 1 n (h θ (x (i)) - y (i)) 2 = 1 2 (X θ - y ⃗) T (X θ - y ⃗)

$J(θ)=\frac{1}{2}\sum_{i=1}^{n}(h_{θ}(x^{(i)})-y^{(i)})^2=\frac{1}{2}(Xθ-\vec{y})^{T}(Xθ-\vec{y})$
根据公式(3) (4)可以推导出：

\nabla A T t r A B A T C = B T A T C T + B A T C

$∇_{A^T}trABA^{T}C=B^TA^TC^T+BA^TC$
所以我们对损失函数构成的矩阵求导：

\nabla θ J (θ) = \nabla θ 1 2 (X θ - y ⃗) T (X θ - y ⃗) = 1 2 \nabla θ (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗) = 1 2 \nabla θ t r (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗) = 1 2 \nabla θ (t r θ T X T X θ - 2 t r y ⃗ T X θ) = 1 2 (X T X θ + X T X θ - 2 X T y ⃗) = X T X θ - X T y ⃗

$\begin{align} ∇_{θ}J(θ)&=∇_{θ}\frac{1}{2}(Xθ-\vec{y})^T(Xθ-\vec{y}) \\ &=\frac{1}{2}∇_{θ}(θ^{T}X^{T}Xθ-θ^TX^T\vec{y}-\vec{y}^TXθ+\vec{y}^T\vec{y}) \\ &=\frac{1}{2}∇_{θ}tr(θ^{T}X^{T}Xθ-θ^TX^T\vec{y}-\vec{y}^TXθ+\vec{y}^T\vec{y}) \\ &=\frac{1}{2}∇_{θ}(trθ^{T}X^{T}Xθ-2tr\vec{y}^TXθ) \\ &=\frac{1}{2}(X^{T}Xθ+X^{T}Xθ-2X^T\vec{y}) \\ &=X^{T}Xθ-X^T\vec{y} \end{align}$
为了求得损失函数

J(θ) $J(θ)$ 的最小值，我们令导数等于零，则可以得到 正规方程（normal equations）

X T X θ = X T y ⃗

$X^TXθ=X^T\vec{y}$
因此，使得损失函数

J(θ) $J(θ)$ 达到最小值的参数θ就可以通过下面等式得出:

θ = (X T X) - 1 X T y ⃗

$θ=(X^TX)^{-1}X^T\vec{y}$

好奇的大白

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】斯坦福大学公开课（机器学习）之二：正规方程

梯度下降法是最小化损失函数的方法之一，它通过向梯度下降的方向不停的迭代，从而找到使损失函数最小或者趋于最小的值。而正规方程求解参数，使损失函数最小的方法，不会去依赖不停的迭代，而是直接通过计算来求得使损失函数最小的参数值。在介绍方程之前，先引入导数矩阵的概念：导数矩阵有一个函数f：它是m*n的矩阵到一个实数的映射，我们定义f关于自变量A的导数为： ▽Af(A)=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂f
复制链接

扫一扫