数据挖掘day28、29-CS229-WEEK4 Neural Networks:Learning

最新推荐文章于 2020-01-02 22:51:55 发布

偲偲粑

最新推荐文章于 2020-01-02 22:51:55 发布

阅读量140

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/weixin_43329319/article/details/100140556

版权

数据挖掘专栏收录该内容

23 篇文章 1 订阅

订阅专栏

本节主要是介绍神经网络的反向传播算法。
深度学习中文讲义

1、代价函数（Cost function）

令k为输出层的个数，当k>=3时，使用多元表达。所以，神经网络的代价函数一般形式，需要对k个输出求和，如下
在这里插入图片描述
注意到正则化项，由j=1开始，因为类似 $x_0$ 之类的项，通常都不做正则化。

2、选择神经网络框架

1、输入和输出都是确定的。
2、一般采用一个隐藏层，如果有多个隐藏层，其维度一般一样多。
3、隐藏单元和隐藏层越多越好，但是计算量变大。

3、随机初始化

随机初始化权重，不能为了0，也不能一样。
比如一般可以使用在0附近正态分布的值 $\mathcal{N}(0,0.1)$
在实践中，会有一种比随机值初始化更好的方法。叫做Xavier/He 初始化，对权重(weights)进行的初始化如下
在这里插入图片描述

4、前向传播（forward propagation）

1、从左至右，一步一步，计算所有 $h_{\Theta}(x^{(i)}$
2、计算代价函数 $J(\Theta)$ n

5、反向传播（back propagation）

由前面计算的 $h_{\Theta}(x^{(i)}$ ，与 $y^{(i)}$ 之间的差误差 $\delta^{(i)}$
然后一步一步从右往左反向计算所有的 $\delta$ ： $\delta^{(3)}$ 、 $\delta^{(2)}$ ，不计算 $\delta^{(1)}$

$\delta^{(4)}=a^{(4)}-y$
$\delta^{(3)}=(\Theta^{(3)})\delta^{(4)}. *g'(z^{(3)})$ 其中 $g'(z^{(3)})=a^{(3)}. *(1-a^{(3)})$
$\delta^{(2)}=(\Theta^{(2)})\delta^{(3)}. *g'(z^{(2)})$ 其中 $g'(z^{(2)})=a^{(2)}. *(1-a^{(2)})$

而， $\frac{\partial }{\partial \Theta_ij^{(l)}}J(\Theta)=a_j^{(l)}\delta_i^{(l+1)}$
写成向量的形式是：
例如： $\frac{\partial }{\partial \Theta^{(4)}}J(\Theta)=a^{(3)}\delta^{(4)}=(a^{(4)}-y)(a^{(3)})^T$
在这里插入图片描述

6、梯度检测

第一次计算出偏导数（梯度）之后，要对计算值进行验算，验证算法是否正确。
通过对 $\theta$ 增加微小量 $\epsilon$ 进行近似。
在这里插入图片描述
验证之后，记得将验证算法关闭。

7、优化

例如使用梯度下降算法（或其他算法），对权重进行优化。

偲偲粑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘day28、29-CS229-WEEK4 Neural Networks:Learning

本节主要是介绍神经网络的反向传播算法。深度学习中文讲义1、代价函数（Cost function）令k为输出层的个数，当k>=3时，使用多元表达。所以，神经网络的代价函数一般形式，需要对k个输出求和，如下注意到正则化项，由j=1开始，因为类似x0x_0x0之类的项，通常都不做正则化。2、选择神经网络框架1、输入和输出都是确定的。2、一般采用一个隐藏层，如果有多个隐藏层，其维...
复制链接

扫一扫