CS229学习笔记之线性回归与梯度下降

最新推荐文章于 2024-07-24 20:39:13 发布

xxwywzy

最新推荐文章于 2024-07-24 20:39:13 发布

阅读量233

点赞数

分类专栏：机器学习-CS229 文章标签：斯坦福大学机器学习 CS229 学习笔记

本文链接：https://blog.csdn.net/u012946504/article/details/78785420

版权

机器学习-CS229 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本系列笔记是斯坦福大学公开课 CS229 的学习记录，主要的参考资源为课堂视频与讲义，以及网络上一些已有的学习笔记，欢迎批评指正~

线性回归（Linear Regression）

假设函数：

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2

$h_\theta(x) = \theta_0+\theta_1x_1+\theta_2x_2$

将 $\theta$ 和 $x$ 看作向量，取 $x_0=1$ ，上式可以表示为：

h θ (x) = \sum i = 0 n θ i x i = θ T x

$h_\theta(x) = \sum_{i=0}^n\theta_ix_i = \theta^Tx$

代价函数（cost function）：

J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta) = \frac 1 2 \sum_{i=1}^m \left(h_\theta(x^{(i)})-y^{(i)}\right)^2$

注：也可以用上式除以 $\frac 1 m$ 来表示代价函数

线性回归的目的：通过训练集找出使代价函数最小的一组参数 $\theta$ （最小二乘法）

对 $J(\theta)$ 的直观理解：对训练集中所有的样本点，其真实值和预测值之间的误差的平方和，其中 $\frac 1 2$ 是为了计算方便，求导时会消掉。（之后会给出基于概率最大似然的解释）

梯度下降（Gradient Descent）

定义

梯度下降是一种求解最优化问题的迭代方法，具体步骤为：先随机选取初始的 $\theta$ ，再不断地以梯度的方向修正 $\theta$ ，最终使 $J(\theta)$ 收敛至局部最优（在最小二乘中，局部最优即全局最优）

θ j : = θ j - α \partial \partial θ j J (θ) (1)

$\theta_j := \theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta)\tag{1}$

$\alpha$ 称为学习速率，太小会导致收敛缓慢，太大会导致错过最优点，需要谨慎选择。

进一步推导（假设只有一个样本点）：

\partial \partial θ j J (θ) = \partial \partial θ j 1 2 (h θ (x) - y) 2 = 2 \cdot 1 2 (h θ (x) - y) \cdot \partial \partial θ j (h θ (x) - y) = (h θ (x) - y) \cdot \partial \partial θ j (\sum i = 0 n θ i x i - y) = (h θ (x) - y) x j

$\begin{align*} \frac{\partial}{\partial \theta_j}J(\theta) &=\frac{\partial}{\partial \theta_j}\frac 1 2(h_\theta(x)-y)^2 \\&=2\cdot\frac1 2(h_\theta(x)-y)\cdot\frac{\partial}{\partial \theta_j}(h_\theta(x)-y) \\&=(h_\theta(x)-y)\cdot\frac{\partial}{\partial \theta_j}\left(\sum_{i=0}^n\theta_ix_i-y\right) \\&=(h_\theta(x)-y)x_j \end{align*}$
代入

(1) $(1)$ 式得：

θ j : = θ j + α (y (i) - h θ (x (i))) x (i) j (2)

$\theta_j := \theta_j+\alpha\left(y^{(i)}-h_\theta(x^{(i)})\right)x^{(i)}_j\tag{2}$
注意：这里减号变成了加号，只是数学上的变换，方便之后与逻辑回归的结果作比较。

分类

梯度下降主要可以分为两类：批量梯度下降和随机梯度下降。

批量梯度下降（batch）：每次计算梯度都需要遍历所有的样本点，当样本量很大时，计算速度会十分缓慢。
$\mbox{Repeat until convergence } \{$

θ j : = θ j + α \sum i = 1 m (y (i) - h θ (x (i))) x (i) j (for every j)

$\theta_j := \theta_j+\alpha\sum_{i=1}^m\left(y^{(i)}-h_\theta(x^{(i)})\right)x^{(i)}_j\qquad\mbox{(for every j)}$

} $\}$
注：上式中的

α $\alpha$ 包含了

1m $\frac 1 m$ ，即

α = α' \cdot 1 m

$\alpha = \alpha\prime\cdot\frac 1 m$
需注意不同公式下

α $\alpha$ 的数量级的不同。

随机梯度下降（stochastic）：每次只考虑一个样本点，而不是所有样本点，计算速度会提高，但是收敛过程会比较曲折，可能无法精确收敛至最优值。
$\mbox{Loop } \{$
$\qquad\mbox{for i=1 to m, } \{$

θ j : = θ j + α (y (i) - h θ (x (i))) x (i) j (for every j)

$\theta_j := \theta_j+\alpha\left(y^{(i)}-h_\theta(x^{(i)})\right)x^{(i)}_j\qquad\mbox{(for every j)}$

} $\qquad\}$

} $\}$

随机梯度下降的优化：小批量梯度下降（mini-batch），利用矩阵并行运算，一次处理小批量的样本点，有时可以比随机梯度下降速度更快。
$\mbox{Say b=10, m=1000.}$
$\mbox{Repeat } \{$
$\qquad\mbox{for i=1,11,21,31,..., 991 } \{$

θ j : = θ j + α 1 10 \sum k = i i + 9 (y (k) - h θ (x (k))) x (k) j (for every j)

$\theta_j := \theta_j+\alpha\frac 1 {10}\sum_{k=i}^{i+9}\left(y^{(k)}-h_\theta(x^{(k)})\right)x^{(k)}_j\qquad\mbox{(for every j)}$

} $\qquad\}$

} $\}$

注意：每一次迭代都同时更新所有的 $\theta$

为什么选择梯度方向？

因为梯度方向是使代价函数减小（下降）最大的方向。

证明（利用柯西不等式）：

当 $\theta$ 改变一个很小的量时，利用泰勒公式，忽略一阶导数之后的项，得：

Δ J \approx \partial J \partial θ 0 Δ θ 0 + \partial J \partial θ 1 Δ θ 1 + \dots + \partial J \partial θ n Δ θ n (3)

$\Delta J \thickapprox \frac{\partial J}{\partial \theta_0} \Delta \theta_0+ \frac{\partial J}{\partial \theta_1} \Delta \theta_1+\cdots+ \frac{\partial J}{\partial \theta_n} \Delta \theta_n \tag{3}$
定义：

Δ θ \nabla J \equiv (Δ θ 0, Δ θ 1, \dots, Δ θ n) T \equiv (\partial J \partial θ 0, \partial J \partial θ 1, \dots, \partial J \partial θ n) T

$\begin{split} \Delta\theta &\equiv (\Delta\theta_0,\Delta\theta_1,\ldots,\Delta\theta_n)^T \\ \nabla J &\equiv (\frac{\partial J}{\partial \theta_0},\frac{\partial J}{\partial \theta_1},\ldots,\frac{\partial J}{\partial \theta_n})^T \end{split}$
代入

(3) $(3)$ 式，得：

Δ J \approx \nabla J \cdot Δ θ

$\Delta J \thickapprox \nabla J\cdot\Delta \theta$
由柯西不等式，有：

∣ Δ J ∣ \approx ∣ \nabla J \cdot Δ θ ∣ \leq ∥ \nabla J ∥ \cdot ∥ Δ θ ∥

$\lvert\Delta J \rvert\,\thickapprox \,\lvert\nabla J\cdot\Delta \theta \rvert\,\le\,\|\nabla J\|\cdot\|\Delta \theta \|$
等号当且仅当

Δθ $\Delta \theta$ 与

∇J $\nabla J$ 线性相关时成立

所以，要使 $\Delta J$ 最小，即 $\mid\Delta J \mid$ 最大且 $\Delta J<0$ ，而当且仅当：

Δ θ = - α \nabla J (α > 0)

$\Delta \theta = -\alpha \nabla J \quad(\alpha>0)$
时满足条件，即沿着梯度方向调整

θ $\theta$

标准方程（Normal Equations）

对于线性回归问题，可以通过标准方程直接求出 $\theta$ 的解析解。
推导过程：
1. 矩阵导数（matrix derivatives）
对一个将 $m\times n$ 的矩阵映射至实数的函数，定义其导数为：

\nabla A f (A) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f \partial A 11 ⋮ \partial f \partial A m 1 \dots ⋱ \dots \partial f \partial A 1 n ⋮ \partial f \partial A m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\nabla_A f(A) = \left[ \begin{matrix} \frac{\partial f}{\partial A_{11}} & \cdots & \frac{\partial f}{\partial A_{1n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f}{\partial A_{m1}} & \cdots & \frac{\partial f}{\partial A_{mn}} \\ \end{matrix} \right]$
引入矩阵的迹（trace），对一

n×n $n\times n$ 方阵，其迹定义为对角线元素之和

tr A = \sum i = 1 n A i i

$\mbox{tr}\,A = \sum_{i=1}^nA_{ii}$
易证明迹操作具有如下性质（需满足进行tr操作时为方阵）：

tr A B = tr B A, tr A B C = tr C A B = tr B C A, tr A B C D = tr D A B C = tr C D A B = tr B C D A

$\mbox{tr}\,AB = \mbox{tr}\,BA,\\ \mbox{tr}\,ABC = \mbox{tr}\,CAB = \mbox{tr}\,BCA,\\ \mbox{tr}\,ABCD = \mbox{tr}\,DABC = \mbox{tr}\,CDAB = \mbox{tr}\,BCDA$
同样易证明如下性质（A,B为方阵且a为实数）：

tr A = tr A T tr (A + B) = tr A + tr B tr a A = a tr A

$\mbox{tr}\,A = \mbox{tr}\,A^T\\ \mbox{tr}\,(A+B) = \mbox{tr}\,A+ \mbox{tr}\,B\\ \mbox{tr}\,aA = a\,\mbox{tr}\,A$
基于以上定义，下面列出一些关于矩阵导数的性质（等式

(4) $(4)$ 只针对非奇异矩阵，

∣A∣ $\lvert A\rvert$ 表示A的行列式）：

\nabla A tr A B \nabla A T f (A) \nabla A tr A B A T C \nabla A ∣ A ∣ = = = = B T (\nabla A f (A)) T C A B + C T A B T ∣ A ∣ (A - 1) T (4) (5) (6) (7)

$\begin{eqnarray*} \nabla_A\mbox{tr}\,AB &=& B^T \tag{4} \\ \nabla_{A^T}f(A) &=& (\nabla_{A}f(A))^T \tag{5} \\ \nabla_A\mbox{tr}\,ABA^TC &=& CAB+C^TAB^T \tag{6} \\ \nabla_A\lvert A \rvert &=& \lvert A \rvert(A^{-1})^T \tag{7} \end{eqnarray*}$

最小二乘重现（Least squares revisited）
对于训练集，可以写成如下的形式：
$X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ — (x (1)) T — — (x (2)) T — ⋮ — (x (m)) T — ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, y ⃗ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥$ $X = \left[ \begin{matrix} —(x^{(1)})^T— \\ —(x^{(2)})^T— \\ \vdots \\ —(x^{(m)})^T— \\ \end{matrix} \right], \; \vec y=\left[ \begin{matrix} y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(m)} \\ \end{matrix} \right]$
因为 $h_{\theta}(x^{(i)}) = (x^{(i)})^T\theta$ ，我们可以得出：
$X θ - y ⃗ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ (x (1)) T θ (x (2)) T θ ⋮ (x (m)) T θ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ - ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ h θ (x (1)) - y (1) h θ (x (2)) - y (2) ⋮ h θ (x (m)) - y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥$ $\begin{align*} X\theta-\vec y&=\left[ \begin{matrix} (x^{(1)})^T\theta \\ (x^{(2)})^T\theta \\ \vdots \\ (x^{(m)})^T\theta \\ \end{matrix} \right]-\left[ \begin{matrix} y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(m)} \\ \end{matrix} \right] \\ &=\left[ \begin{matrix} h_{\theta}(x^{(1)})-y^{(1)} \\ h_{\theta}(x^{(2)})-y^{(2)} \\ \vdots \\ h_{\theta}(x^{(m)})-y^{(m)} \\ \end{matrix} \right] \end{align*}$
此外，对于一个向量z，我们有 $z^Tz = \sum_iz_i^2$ ，因此综上可以得出：
$1 2 (X θ - y ⃗) T (X θ - y ⃗) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2 = J (θ)$ $\begin{align*} \frac 1 2(X\theta-\vec y)^T(X\theta-\vec y) &= \frac 1 2 \sum_{i=1}^m \left(h_\theta(x^{(i)})-y^{(i)}\right)^2\\ &= J(\theta) \end{align*}$
所以为了使 $J(\theta)$ 最小，即只需找出其导数为0时 $\theta$ 的值。下面给出详细的求解过程：
首先，将 $(5)$ 式与 $(6)$ 式结合，得：
$\nabla A T f (A) \nabla A tr A B A T C \nabla A T tr A B A T C = = = = = (\nabla A f (A)) T C A B + C T A B T (C A B + C T A B T) T (C A B) T + (C T A B T) T B T A T C T + B A T C (5) (6) (8)$ $\begin{eqnarray*} \nabla_{A^T}f(A) &=& (\nabla_{A}f(A))^T \tag{5} \\ \nabla_A\mbox{tr}\,ABA^TC &=& CAB+C^TAB^T \tag{6} \\ \nabla_{A^T}\mbox{tr}\,ABA^TC &=& (CAB+C^TAB^T)^T\\ &=& (CAB)^T+(C^TAB^T)^T \\ &=& B^TA^TC^T+BA^TC\tag{8} \end{eqnarray*}$
注：最后两步的推导基于矩阵转置的下列性质：
$(A + B) T = A T + B T (A B) T = B T A T$ $(A+B)^T=A^T+B^T \\ (AB)^T=B^TA^T$
基于以上所述，有：
$\nabla θ J (θ) = \nabla 1 2 (X θ - y ⃗) T (X θ - y ⃗) = 1 2 \nabla θ (θ T X T - y ⃗ T) (X θ - y ⃗) = 1 2 \nabla θ (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗)                      a = tr a, a \in R = 1 2 \nabla θ tr (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗)                        tr (A + B) = tr A + tr B = 1 2 \nabla θ (tr θ T X T X θ - tr θ T X T y ⃗ - tr y ⃗ T X θ + tr y ⃗ T y ⃗)                            tr A = tr A T = 1 2 \nabla θ (tr θ T X T X θ - 2 tr y ⃗ T X θ + tr y ⃗ T y ⃗ ⏟ don't depend on θ) = 1 2 \nabla θ (tr θ T X T X θ - 2 tr y ⃗ T X θ) = 1 2 (\nabla θ tr θ T X T X θ        use (8), A T = θ, B = B T = X T X, C = I - 2 \nabla θ tr y ⃗ T X θ      tr A B C = tr C A B, then use (4)) = 1 2 (X T X θ + X T X θ - 2 X T y ⃗) = X T X θ - X T y ⃗$ $\begin{align*} \nabla_\theta J(\theta) &= \nabla \frac 1 2(X\theta-\vec y)^T(X\theta-\vec y) \\ &= \frac 1 2 \nabla_\theta(\theta^TX^T-\vec y^T)(X\theta-\vec y)\\ &= \frac 1 2 \nabla_\theta\underbrace{(\theta^TX^TX\theta-\theta^TX^T\vec y-\vec y^TX\theta+\vec y^T\vec y)}_{a = \text {tr}\,a,\,a\in R}\\ &= \frac 1 2 \nabla_\theta\underbrace{\text{tr}\,(\theta^TX^TX\theta-\theta^TX^T\vec y-\vec y^TX\theta+\vec y^T\vec y)}_{ \text {tr}\,(A+B)=\text {tr}\,A+\text {tr}\,B}\\ &= \frac 1 2 \nabla_\theta\underbrace{(\text {tr}\,\theta^TX^TX\theta-\text {tr}\,\theta^TX^T\vec y-\text {tr}\,\vec y^TX\theta+\text {tr}\,\vec y^T\vec y)}_{\text{tr}\,A = \text{tr}\,A^T}\\ &= \frac 1 2 \nabla_\theta(\text {tr}\,\theta^TX^TX\theta-2\text {tr}\,\vec y^TX\theta+\underbrace{\text {tr}\,\vec y^T\vec y}_{\text{don't depend on }\theta})\\ &= \frac 1 2 \nabla_\theta(\text {tr}\,\theta^TX^TX\theta-2\text {tr}\,\vec y^TX\theta)\\ &= \frac 1 2 (\underbrace{\nabla_\theta\text {tr}\,\theta^TX^TX\theta}_{\text{use }(8),\,A^T=\theta,B=B^T=X^TX,C=I}-2\underbrace{\nabla_\theta\text {tr}\,\vec y^TX\theta}_{\text{tr}\,ABC = \text{tr}\,CAB,\text{then use }(4)})\\ &= \frac 1 2(X^TX\theta+X^TX\theta-2X^T\vec y)\\ &=X^TX\theta-X^T\vec y \end{align*}$
当J(θ)最小时，其导数一定为0，即可以推出标准方程：
$X T X θ = X T y ⃗ θ = (X T X) - 1 X T y ⃗$ $X^TX\theta=X^T\vec y\\ \theta=(X^TX)^{-1}X^T\vec y$
注： $X^TX$ 是否可逆并不是一个大问题，可以通过伪逆计算或正则化处理解决。