Machine Learning 笔记_鈭嘇trabatc-CSDN博客

本文深入解析梯度算法在房价预测中的应用，从基本概念出发，逐步引入正规方程推导过程，详细阐述了梯度下降、随机梯度下降和正规方程的求解方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度算法

首先定义一些符号：

$m$ ：训练样本大小
$x$ ：输入变量
$y$ ：输出变量
$(x, y)$ ：一个样本
$({X}^{i},{X}^{i})$ ：表示第i个样本

以房价预测为例， ${x}_{0} = size, {x}_{1} = bedrooms$ 这里size和bedrooms是两个特征量，我们可以用一条直线去拟合：

h (x) = h θ (x) = θ 0 + θ 1 x 0 + θ 2 x 1

$h(x) = {h}_{\theta}(x) = {\theta}_{0} + {\theta}_{1}{x}_{0} + {\theta}_{2}{x}_{1}$
于是，当我们有n个特征的时候：

h (x) = h θ (x) = \sum i = 0 n θ i x i = θ T X

$h(x) = {h}_{\theta}(x) = \sum_{i = 0}^{n}{\theta}_{i}{x}_{i} = {\theta}^{T}X$
房价

y=h θ (x) $y = {h}_{\theta}(x)$ 是一个依赖于

θ ${\theta}$ 的函数，我们的目的就是确定合适的

θ ${\theta}$ 使得，当给定

x $x$ 的时候，我们输出的y更准确。
基于样本有目标函数：

J (θ) = 1 2 \sum i = 0 m (h θ (X i) - Y i) 2

$J({\theta}) = \frac{1}{2}\sum_{i = 0}^{m}({h}_{\theta}({X}^{i}) - {Y}^{i})^2$

J(θ) $J(\theta)$ 表示m个样本基于预测值和真实值之间的误差的平方，使得这个误差最小的

θ $\theta$ ，就是我们要求的参数值。那么问题转换为

min θ J(θ) $\min_\theta J(\theta)$ 。

搜索算法

初始化 $\theta = {\vec{0}}$
更新 $\theta$ 的值使得 $J({\theta})$ 最小
判断是否收敛，不收敛执返回行步骤2

对于2中的更新办法：

梯度下降算法

更新 $\theta$ 公式：
$θ i : = θ i - α α α θ i J (θ)$ ${\theta}_{i} := {\theta}_{i} - \alpha\frac{\alpha}{{\alpha}_{{\theta}_{i}}}J(\theta)$
其中， $\alpha$ 表示下降速度。
实际上梯度表的是某一参数的变化率，当 $\frac{\alpha}{{\alpha}_{{\theta}_{i}}}J(\theta) = 1$ 表示局部最大，当 $\frac{\alpha}{{\alpha}_{{\theta}_{i}}}J(\theta) = 0$ 局部最小，梯度为0。

okay求这个偏导数，先来看只有一组样本的时候：

$α α θ i J (θ) = α α θ i 1 2 (h θ (x) - y) 2 = (h θ (x) - y) x i$ $\frac{\alpha}{{\alpha}_{{\theta}_{i}}}J(\theta) = \frac{\alpha}{{\alpha}_{{\theta}_{i}}}\frac{1}{2}(h_{\theta}(x) - y)^{2}\\=(h_{θ}(x)−y){x}_{i}$
当只有一组样本时，
$J(\theta)$ 中 ${h}_{\theta}({X}^{i}) - {Y}^{i} = {h}_{\theta}(x) - y = \sum_{i = 0}^{n}(\theta_{i}x_{i}-y_i)$ ,对 $\theta_i$ (确定某一个参数时)求偏导数等于 $x_i$ 于是得到上面的倒数
那么当有m个样本的时候更新公式变为：
$θ i : = θ i - α \sum j = 1 m (h θ (X j) - Y j) X j i$ ${\theta}_{i} := {\theta}_{i} - \alpha\sum_{j = 1}^{m}(h_\theta(X^j) - Y^j)X_{i}^{j}$
收敛条件是 $\Delta J \approx 0$
注意到，更新公式中每次更新一个参数都需要进行求和运算，因此并不适合大量样本。下面提出一个新的算法解决这个问题。
随机梯度下降算法

repeat{
for i to m{
${\theta}_{i} := {\theta}_{i} - \alpha(h_\theta(x^j) - y^j)x_{i}^{j}$
}
}
当i = 1时，用第一个样本求得 $\theta_1$ ，当i = 2的时候用 $\theta_1$ 更新 $\theta_2$ ，此时不需要求和，只是当做只有一个样本来处理
这样做，使得求解快了不少，但是每次求得的路径不是局部最小，而是不断的靠近局部最小解。如果取回归函数的等高线则其表现如下图：

正规方程推导

一些标记和结论：

标记

$\nabla θ J (θ) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ α J α θ 0 ⋮ α J α θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ n * 1$ $\nabla_{\theta}J(\theta) = \begin{bmatrix} \dfrac{\alpha J}{\alpha \theta_0}\\ \vdots \\ \dfrac{\alpha J}{\alpha \theta_n}\\ \end{bmatrix}_{n*1}$ $J(\theta)$ 的梯度是一个雅可比矩阵，于是之前我们得到更行公式可以表示为: $θ : = θ - α \nabla θ J (θ)$ ${\theta}:=\theta - \alpha\nabla_\theta J(\theta)$

如果记A是一个m*n的矩阵， $f（A）->R ,f$ 是 $A$ 到实数集的映射函数那么：

$\nabla A f (A) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ α f α A 11 ⋮ α f α A m 1 \dots ⋮ \dots α f α A 1 n ⋮ α f α A m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ m * n$ $\nabla_Af(A) = \begin{bmatrix} &\dfrac{\alpha f}{\alpha A_{11}} &\dots&\dfrac{\alpha f}{\alpha A_{1n}}\\ &\vdots &\vdots&\vdots \\ &\dfrac{\alpha f}{\alpha A_{m1}}&\dots&\dfrac{\alpha f}{\alpha A_{mn}}\\ \end{bmatrix}_{m*n}$

结论

如果 $A\in R^{n*n}$ ，那么 $trA= \sum_{i = 1}^{n}A_{ii}$
$trAB = trBA$
$trABC = trCAB = trBCA$
如果 $f(A) = trAB$ , 那么 $\nabla_AtrAB = B^T$
$\nabla_AtrABA^TC = CAB + C^TAB^T$

下面是使用以上结论，推导出正规方程的过程：

X=⎡ ⎣ ⎢ ⎢ ⎢ (X 1 ) T ⋮(X m ) T ⎤ ⎦ ⎥ ⎥ ⎥ m∗n ,X i =⎡ ⎣ ⎢ ⎢ x 1 ⋮x n ⎤ ⎦ ⎥ ⎥ 1∗n $X = \begin{bmatrix}(X^1)^T\\\vdots\\(X^m)^T\end{bmatrix}_{m*n} , X^i = \begin{bmatrix}x_1\\\vdots\\x_n\end{bmatrix}_{1*n}$

Xθ=⎡ ⎣ ⎢ ⎢ ⎢ (X 1 ) T θ 1 ⋮(X m ) T θ m ⎤ ⎦ ⎥ ⎥ ⎥ 1∗m =⎡ ⎣ ⎢ ⎢ ⎢ (X 1 ) T θ 1 ⋮(X m ) T θ m ⎤ ⎦ ⎥ ⎥ ⎥ 1∗m =⎡ ⎣ ⎢ ⎢ h θ (X 1 )⋮h θ (X m ) ⎤ ⎦ ⎥ ⎥ 1∗m $X\theta = \begin{bmatrix}(X^1)^T\theta_{1}\\\vdots\\(X^m)^T\theta_m\end{bmatrix}_{1*m} = \begin{bmatrix}(X^1)^T\theta_1\\\vdots\\(X^m)^T\theta_m\end{bmatrix}_{1*m} =\begin{bmatrix}h_\theta(X^1)\\\vdots\\h_\theta(X^m)\end{bmatrix}_{1*m}$

这里由于第1个样本

h θ (X 1 )=θ 0 +θ 1 x 1 +⋯+θ n x n =(X 1 ) T θ $h_\theta(X^1) = \theta_0 + \theta_1x_1+\dots+\theta_nx_n = (X^1)^T\theta$ ，一共有m个样本于是得出以上

Xθ $X\theta$ 。

Y ⃗ =⎡ ⎣ ⎢ ⎢ Y (1) ⋮Y (m) ⎤ ⎦ ⎥ ⎥ m∗1 $\vec Y = \begin{bmatrix}Y^{(1)}\\\vdots\\Y^{(m)}\end{bmatrix}_{m*1}$

Xθ−Y=⎡ ⎣ ⎢ ⎢ h θ (X 1 )−Y 1 ⋮h θ (X m )−Y m ⎤ ⎦ ⎥ ⎥ $X\theta - Y = \begin{bmatrix}h_\theta(X^1) - Y^1\\\vdots\\h_\theta(X^m) - Y^m\end{bmatrix}$

那么

J(θ) $J(\theta)$ =

12 (Xθ−Y) T (Xθ−Y)=12 ∑ m i=1 (h(X i )−Y i ) $\dfrac{1}{2}(X\theta - Y)^T(X\theta - Y) = \dfrac{1}{2}\sum_{i = 1}^{m}(h(X^i) - Y^i)$ ，还记得我们的问题是求满足

min θ J(θ) $\min_\theta J(\theta)$ 的

θ $\theta$ , 于是令：

\nabla θ J (θ) = 0 ⃗

$\nabla_\theta J(\theta) = \vec 0$
则,

∇ θ 12 (Xθ−Y) T (Xθ−Y)=12 ∇ θ tr(θ T X T Xθ−θ T X T Y−Y T Xθ−Y T Y)                                            实数的迹为其本身 $\nabla_\theta \dfrac{1}{2}(X\theta - Y)^T(X\theta - Y) = \dfrac{1}{2}\nabla_\theta tr\underbrace{(\theta^TX^TX\theta - \theta^TX^TY - Y^TX\theta - Y^TY)}_{实数的迹为其本身}$

我们一项一项拆开看：

注意到其

X m∗n ,Y m∗1 ,θ 1∗n $X_{m*n}, Y_{m*1}, \theta_{1*n}$ 那么所有项都是实数

$\nabla_\theta tr(\theta^TX^TX\theta) = \nabla_\theta tr(\underbrace{\underbrace{\theta}_A\underbrace{ E}_B\underbrace{\theta^T}_{A^T}\underbrace{X^TX}_C }_{结论2,5}) = X^TX\theta + X^TX\theta$

$\nabla_\theta tr(\theta^TX^TY) = \nabla_\theta tr(\underbrace{Y^TX\theta}_{实数的转置迹相同}) = \nabla_\theta tr(\underbrace{\underbrace{\theta}_A\underbrace{Y^TX}_B}_{结论3,4}) = X^TY$

$\nabla_\theta tr(Y^TX\theta) = X^TY$

$Y^TY$ 与 $\theta$ 无关所以梯度为0

于是

\nabla θ 1 2 (X θ - Y) T (X θ - Y) = 1 2 \nabla θ t r (θ T X T X θ - θ T X T Y - Y T X θ - Y T Y) = 1 2 (X T X θ + X T X θ - X T Y - X T Y) = 0 ⃗

$\nabla_\theta \dfrac{1}{2}(X\theta - Y)^T(X\theta - Y) = \dfrac{1}{2}\nabla_\theta tr(\theta^TX^TX\theta - \theta^TX^TY - Y^TX\theta - Y^TY) = \dfrac{1}{2}(X^TX\theta + X^TX\theta - X^TY - X^TY) = \vec 0$
得到正规方程：