机器学习（1）

最新推荐文章于 2022-11-29 15:11:48 发布

Charlie818

最新推荐文章于 2022-11-29 15:11:48 发布

阅读量440

点赞数

分类专栏：机器学习感悟文章标签：机器学习 SGD NN 梯度下降

本文链接：https://blog.csdn.net/charlie818/article/details/52724421

版权

感悟同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

机器学习

5 篇文章 0 订阅

订阅专栏

以下内容为本人学习Stanford Andrew Ng的课程Machine Learning的笔记，如有问题，欢迎指出与讨论

机器学习框架

机器学习的目标就是对训练集(Training Set)施加一定的学习算法(Learning Algorithms)获取 $h_\theta(x)$ (Hypothesis)，这也是建模的过程。
当模型建好后，输入测试集或验证集(Test Set\Validation Set)到 $h_\theta(x)$ 中便会得到预期结果(Estimate Result)。

梯度下降 (Gradient Descent)

最简单的 $h_\theta(x)$ 便是线性的了，即 $h_\theta(x)=\theta_0 +\theta_1 x_1+\theta_2x_2+....+\theta_n x_n$
若记 $x_0=1$ ，则上述式子可化简为

h θ (x) = \sum i = 0 n θ i x i = θ T X

$h_\theta(x)=\sum_{i=0}^n \theta_i x_i=\theta^T X$
补充一些常见的符号：
m为训练集中样本对

(x(i),y(i)) $(x^{(i)},y^{(i)})$ 的个数；
n为特征(feature)的维度;

下面定义损失函数，

J (θ) = 1 2 \sum i = 0 n (h θ (x (i)) - y (i)) 2

$J(\theta)=\frac1 2 \sum _{i=0}^n(h_\theta(x^{(i)})-y^{(i)})^2$

12 $\frac 1 2$ 是为了以后运算求偏导时方便化简，求和项为把每个训练集中的样本对的输入带入

hθ(x) $h_\theta(x)$ 后与真实结果做差；平方求和后便可得到模型对整体训练集的代价，之后要做的便是要去取代价函数

J(θ) $J(\theta)$ 的最小值，即

minθJ(θ) $\min\limits_{ \theta }J(\theta)$
梯度下降中更新

θ $\theta$ 的核心公式为，

θ : = θ - α \partial \partial θ J (θ), α 为 步 长 。

$\theta:=\theta-\alpha \frac {\partial}{\partial \theta}J(\theta) \space \space \space , \alpha为步长。$

可以很形象地把这个想象成下山问题，取此次迭代位置的梯度的反向，走一个步长*梯度的距离，如图：

当然在线性情况下，我们不用考虑局部最优解的情况。Andrew已经给出图例，在线性情况下的

J(θ) $J(\theta)$ 是一个碗形，只存在一个最优解。

随机梯度下降 (Stochastic Gradient Descent)

但是梯度下降的代价太大，每次都需要扫完整个训练集才能更新一次 $\theta$ 。于是就提出了随机梯度下降，二者对 $\theta$ 更新的公式很相近，只是变成了每次针对一个样本对更新 $\theta_j$ :

θ j : = θ j - α \partial \partial θ j J (θ) = θ j - α (h θ (x (i)) - y (i)) x (i) j

$\theta_j:=\theta_j-\alpha \frac {\partial}{\partial \theta_j}J(\theta) \space =\theta_j-\alpha ( h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
虽然，SGD每次不是朝着梯度最大的方向行进，但大致方向还是会趋向于最优解的。