20170125 Coursera Stanford-MachineLearning/Week4-5

最新推荐文章于 2019-07-28 10:27:43 发布

LiuSpark

最新推荐文章于 2019-07-28 10:27:43 发布

阅读量488

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/SPARKKKK/article/details/54729079

版权

机器学习专栏收录该内容

30 篇文章 0 订阅

订阅专栏

Week4/5:Neural Networks: Representation/Learning

其中黄色小圈代表一个神经元

分层

input layer
output layer
hidden layer隐藏层可以多于一个

$a_{i}^{(j)}$ 是activation
$\Theta^{(j)}$ 代表第j层到第j+1层的参数(权值)矩阵
$s_{j}+1$ 中的 $1$ 指代 bias unit $a_{0}^{(j)}$

ForwardPropagation前向传播

s e t t i n g x = a (1) 对 于 第 i 层 a (i) 0 = 1 z (i + 1) = Θ (i) a (i) a (i + 1) = g (z (i + 1))

$setting\ \ x=a^{(1)}\\ 对于第i层\ a^{(i)}_{0}=1 \\ z^{(i+1)}=\Theta^{(i)}a^{(i)} \\ a^{(i+1)}=g(z^{(i+1)})$

用Neural Networks实现与或非等运算

g(z)函数图像可以参照逻辑回归一节
与 $g(-30+20x_{1}+20x_{2})$
或 $g(-10+20x_{1}+20x_{2})$
非 $g(10-20x_{1})$
异或同或可以用多层去实现

Multiclass Classification

下图中的输出层有四项，分为四个类别，从上到下代表pedestrian car motorcycle truck

CostFunction相关定义

$L$ total number of layers in the network 层数
$s_{l}$ number of units (not counting bias unit) in layer $l$ 第 $l$ 层的unit数(不包含bias unit)
$K$ number of output units/classes 输出的类的数目

Cost Function:Neural Network

h Θ (x) \in ℝ K (h Θ (x)) i = i t h o u t p u t J (Θ) = - 1 m [\sum i = 1 m \sum k = 1 K y (i) k log (h Θ (x (i))) k + (1 - y (i) k) log (1 - (h Θ (x (i))) k)] + λ 2 m \sum l = 1 L - 1 \sum i = 1 s l \sum j = 1 s l + 1 (Θ (l) j i) 2

$h_{\Theta}(x)\in\mathbb{R}^{K}\ \ (h_{\Theta}(x))_{i}=i^{th}\ output\\ \begin{aligned} J(\Theta)=&-\frac{1}{m}[\sum\limits^{m}_{i=1}\sum\limits^{K}_{k=1}{y_{k}^{(i)}\log(h_{\Theta}(x^{(i)}))_{k}+(1-y_{k}^{(i)})\log(1-(h_{\Theta}(x^{(i)}))_{k})}]\\ &+\frac{\lambda}{2m}\sum\limits^{L-1}_{l=1}\sum\limits_{i=1}^{s_{l}}\sum\limits^{s_{l+1}}_{j=1}{(\Theta_{ji}^{(l)})^{2}} \end{aligned}$
一般不把bias unit

Θ(l)i0=1 $\Theta^{(l)}_{i0}=1$ 添加到正则项里面

Gradient computation:Backpropagation Algorithm 梯度计算方法：反向传播算法

又称为BP算法 用于计算 $\min\limits_{\Theta}{J(\Theta)}$

对于sigmoid函数

f (x) = s i g m o i d (x) = 1 1 + e - x 有 f' (x) = f (x) (1 - f (x))

$f(x)=sigmoid(x)=\frac{1}{1+e^{-x}} \\ 有\ \ f'(x)=f(x)(1-f(x))$

$\delta^{(l)}_{j}$ “error” of node $j$ of layer $l$
没有 $\delta^{(1)}$ ，因为输入层无误差

上图中还忽略了 $\lambda$ 令其为0

Gradient Checking

可以证明在特定情况下上图右下角等式是正确的，而 $D_{ij}^{(l)}$ (BP算法)的计算方法效率要远高于直接 $\frac{\partial}{\partial\Theta_{1}}J(\theta)≈\frac{J(\theta_{1}+\epsilon,\theta_{2},...)-J(\theta_{1}-\epsilon,\theta_{2},...)}{2\epsilon}$ （数值计算梯度算法），所以一般求 $\min\limits_{\Theta}$ 用 $D_{ij}^{(l)}$

在使用BP之前先用传统数值方法检验BP算法的正确性(对不同方法得到的结果进行对比，如果结果近似说明BP算法正确)

数学原理

FP之后BP
FP为

s e t t i n g x = a (1) 对 于 第 i 层 a (i) 0 = 1 z (i + 1) = Θ (i) a (i) a (i + 1) = g (z (i + 1))

$setting\ \ x=a^{(1)}\\ 对于第i层\ a^{(i)}_{0}=1 \\ z^{(i+1)}=\Theta^{(i)}a^{(i)} \\ a^{(i+1)}=g(z^{(i+1)})$
BP中

随机初始化 Random Initialization 参数 $\Theta$

如果我们最开始初始化的时候 $\Theta^{(l)}_{ij}=0 \ for \ all\ i,j,l$ 这样的话会导致最后的 $a_{1}^{(2)}=a_{2}^{(2)}$ 即导致同一个隐藏层内的每一个神经单元的值相等。使得Neural Network的性能下降，无法进行更有意义的功能
所以我们必须使用随机初始化 Random Initialization，以破坏对称性

在区间 $[-\epsilon,\epsilon]$ 内随机初始化每一个 $\Theta^{(l)}_{ij}$
必须对一个参数矩阵进行随机初始化，这样可以确保矩阵内的每一个参数值不同。

不可以直接取一个在区间 $[-\epsilon,\epsilon]$ 的随机数再将其赋值于一个 $\Theta^{(l)}_{ij}$ 然后对所有i，j，l循环，因为这样无法破坏对称性

总结

一般来说，每一个隐藏层的units数目可以设置为相同

训练一个Neural Network的步骤

Randomly initialize weights 随机初始化参数（又称为权值weight）
Implement forward propagation to get $h_{\Theta}(x^{(i)})$ for any $x^{(i)}$ 实现前向传播得到没一个数据 $x^{(i)}$ 的 $h_{\Theta}(x^{(i)})$
Implement code to compute cost function $J(\Theta)$ 写代码去实现计算CostFunction
Implement backprop to compute partial derivatives $\frac{\partial}{\partial\Theta_{ij}^{(l)}}J(\Theta)$ 实现BP算法（后向传播算法）去计算偏导数
Using gradient checking to compare $\frac{\partial}{\partial\Theta_{ij}^{(l)}}J(\Theta)$ computed using backpropagation vs. using numerical estimate of gradient of $J(\Theta)$ .Then disable gradient checking code. 把BP算法得到的偏导数 $\frac{\partial}{\partial\Theta_{ij}^{(l)}}J(\Theta)$ 与数值方法得到的 $\frac{\partial}{\partial\Theta_{ij}^{(l)}}J(\Theta)$ 的估计值进行比较，也就是说Gradient Checking确保上述两种计算方法得到基本接近的值。然后把GradientChecking的代码给注释了……
使用梯度下降或者其他高级优化方法(BFGS等等)与BP算法相结合去最小化 $J(\Theta)$ 函数的值，以得到最合适的参数 $\Theta$