机器学习笔记week5(Andrew NG)

最新推荐文章于 2020-11-18 23:13:37 发布

置顶 ice_martin

最新推荐文章于 2020-11-18 23:13:37 发布

阅读量1k

点赞数 2

分类专栏：机器学习文章标签：机器学习神经网络算法

本文链接：https://blog.csdn.net/ice_martin/article/details/77763075

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

机器学习笔记week5(Andrew NG)

martin

机器学习笔记week5Andrew NG
- cost function
- BPBackPropagation算法

cost function

下图分别是逻辑回归和神经网络的cost function，可以看到，神经网络的代价函数比逻辑回归多了一层求和，原因是神经网络的输出层包含K个输出节点，如果要进行多分类的话需要确定哪一节点是1，从而将输出结果表达成one-hot的形式。

此处输入图片的描述

练习题1

此处输入图片的描述

BP(BackPropagation)算法

BP算法的产生是源于神经网络的多层次结构所致。因为不同于逻辑回归只有一层一个节点，神经网络包含了多个数个节点，而不同层之间的节点通过不同的“线”所连接，而被我们把这些线统称为权重weight或者 $\theta$ ，正是由于众多纷杂的 $\theta$ 的训练比较复杂，所以采用BP算法来跟新权重。

此处输入图片的描述

跟逻辑回归一样，我们定义好了cost function函数后就要对其关于 $\theta$ 求导，来到达最优值。

此处输入图片的描述

关于上图中的一些方程我们可以用下图来化简下，可能更直观些：

此处输入图片的描述

我们把每一层的多个节点都用一个大圆圈来表示，这样，层与层之间就变成了一个链式结构，可以看到每一层的输入都是上一层的输出，彼此依赖。

此处输入图片的描述

上图是NG在视频中直接给给出的公式，并没有进行推导，所以看着有点蒙，这里给大家推导一下：
先明确下目标，我们的目标是：

m i n \partial J ( θ ) \partial θ

$min {\partial J(\theta)\over \partial\theta}$
我们定义

θX=z $\theta X=z$ ，所以上式可以写成

m i n \partial J ( θ ) \partial z \partial z \partial θ

$min {\partial J(\theta)\over \partial z} {\partial z \over \partial \theta}$
而这里，我们就定义

σ=∂J(θ)∂z $\sigma={\partial J(\theta)\over \partial z}$ 作为每一层的残差。

输出层
$σ (L) = \partial J ( θ ) \partial z ( L ) = \partial J ( θ ) \partial a ( L ) \partial a ( L ) \partial z ( L ) = (( 1 - y ) 1 - a ( L ) - y a L) a (L) (1 - a (L)) = a (L) - y$ $\sigma^{(L)}={\partial J(\theta)\over \partial z^{(L)}}={\partial J(\theta)\over \partial a^{(L)}}{\partial a^{(L)}\over \partial z^{(L)}}=({(1-y)\over 1-a^{(L)}}-{y\over a^{L}})a^{(L)}(1-a^{(L)})=a^{(L)}-y$
隐含层
$σ (L - 1) = \partial J ( θ ) \partial z ( L - 1 ) = \partial J ( θ ) \partial a ( L ) \partial a ( L ) \partial z ( L ) \partial z ( L ) \partial a ( L - 1 ) \partial a ( L - 1 ) \partial z ( L - 1 ) = (a (L) - y) θ (L - 1) a' = σ (L) θ (L - 1) a'$ $\sigma^{(L-1)}={\partial J(\theta)\over \partial z^{(L-1)}}={\partial J(\theta)\over \partial a^{(L)}}{\partial a^{(L)}\over \partial z^{(L)}}{\partial z^{(L)}\over \partial a^{(L-1)}}{\partial a^{(L-1)}\over \partial z^{(L-1)}}=(a^{(L)}-y)\theta^{(L-1)}a'=\sigma^{(L)}\theta^{(L-1)}a'$
即 $σ (L - 1) = σ (L) θ (L - 1) a'$ $\sigma^{(L-1)}=\sigma^{(L)}\theta^{(L-1)}a'$
输入层
输入层不用进行反向传播。

此时，我们已经将目标 $min {\partial J(\theta)\over \partial\theta}=min {\partial J(\theta)\over \partial z} {\partial z \over \partial \theta}$ 中的前半部分写了出来，那么后半部分为：

\partial z ( L ) \partial θ ( L - 1 ) = a (L - 1)

${\partial z^{(L)}\over \partial \theta^{(L-1)}}=a^{(L-1)}$
于是，我们的目标函数就是这样的：

\partial J ( θ ) \partial θ ( L - 1 ) = (a (L) - y) a (L - 1) = σ (L) a (L - 1)

${\partial J(\theta)\over \partial\theta^{(L-1)}}=(a^{(L)}-y)a^{(L-1)}=\sigma^{(L)}a^{(L-1)}$
然后稍微做下变动：

\partial J ( θ ) \partial θ ( L ) = (a (L + 1) - y) a (L) = σ (L + 1) a (L)

${\partial J(\theta)\over \partial\theta^{(L)}}=(a^{(L+1)}-y)a^{(L)}=\sigma^{(L+1)}a^{(L)}$

于是就有了BP算法的整个过程：

此处输入图片的描述

练习

此处输入图片的描述

ice_martin

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记week5(Andrew NG)

机器学习笔记week5(Andrew NG)martin机器学习笔记week5Andrew NGcost functionBPBackPropagation算法cost function下图分别是逻辑回归和神经网络的cost function，可以看到，神经网络的代价函数比逻辑回归多了一层求和，原因是神经网络的输出层包含K个输出节点，如果要进行多分类的话需要确定哪一节点是1，从而将输出结果表达
复制链接

扫一扫

专栏目录