多层网络和反向传播笔记

最新推荐文章于 2023-08-21 00:33:22 发布

LXYTSOS

最新推荐文章于 2023-08-21 00:33:22 发布

阅读量1w

点赞数 2

分类专栏：神经网络机器学习笔记神经网络与机器学习笔记文章标签：神经网络机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lxytsos/article/details/51175557

版权

神经网络与机器学习笔记同时被 3 个专栏收录

47 篇文章 61 订阅

订阅专栏

25 篇文章 0 订阅

订阅专栏

25 篇文章 0 订阅

订阅专栏

在我之前的博客中讲到了感知器（感知器），它是用于线性可分模式分类的最简单的神经网络模型，单个感知器只能表示线性的决策面，而反向传播算法所学习的多层网络能够表示种类繁多的非线性曲面。

对于多层网络，如果使用线性单元的话，多个线性单元的连接仍然是线性函数，所以还不能表征非线性函数。使用感知器单元，但是它不连续所以也就不可微，不适合梯度下降算法。我们需要这么一种单元，它的输出是输入的非线性函数，而且输出是输入的可微函数。那么可以使用sigmoid单元，它非常类似于感知器单元，而且基于一个平滑的可微阈值函数，It looked like this:
sigmoid

sigmoid函数公式如下：

σ (y) = 1 1 + e - y

$\sigma (y)=\frac{1}{1+e^{-y}}$ 它的输出范围为[0,1]，随输入单调递增，这个函数把非常大的输入值映射到一个小范围的输出，它经常被称为sigmoid单元的挤压函数（squashing function）。sigmoid函数的导数很容易以它的输出表示，即

d σ ( y ) d y = σ (y) \cdot (1 - σ (y))

$\frac{d\sigma (y)}{dy}=\sigma (y)·(1-\sigma (y))$ 有时候可以使用其他容易计算导数的可微函数代替，比如sigmoid函数中的

e −y $e^{-y}$ 有时候被替换为

e −ky $e^{-ky}$ 其中

k $k$ 是个正常数，用来决定函数的陡峭性。双曲正切函数也可用来代替sigmoid函数。

对于由一系列确定的单元相互连接形成的多层网络，反向传播算法可以用来学习这个网络的权值，它使用梯度下降方法来最小化网络输出值和目标值之间的误差平方。

在这里我们要考虑网络中多个输出单元，而不是一个单元，所以可以看到下面的误差公式中要计算两次和：

E (w ⃗) \equiv 1 2 \sum d \in D \sum k \in o u t p u t s (t k d - o k d) 2

$E(\vec{w}) \equiv \frac{1}{2} \sum_{d\in D} \sum_{k\in outputs}(t_{kd}-o_{kd})^2$ 其中

outputs $outputs$ 是网络输出单元的集合，

t kd $t_{kd}$ 和

o kd $o_{kd}$ 是与训练样例

d $d$ 和第

k $k$ 个输出单元相关的输出值。

反向传播算法需要解决的问题是搜索一个巨大的假设空间，这个空间由网络中所有单元的所有可能权值定义，此时可以用一个误差曲面来形象表示。在和训练单个单元的情况一样，梯度下降可以用来寻找使 $E$ 最小化的一个假设。

多层网络的一个主要不同是它的误差曲面可能有多个局部最小值，那么这就会带来一个问题，使用梯度下降的时候不能保证一定能收敛到全局最小值。不过在实践中反向传播都产生了出色的结果。

反向传播首先把输入 $\vec{x}$ 沿网络前向传播，然后计算每个单元 $u$ 的输出 $o_u$ ，然后是误差沿网络反向传播（反向传播算法名字应该就是这么得来的吧），对于网络的每个输出单元 $k$ ，计算它的误差项 $\delta_k$ ：

δ k \leftarrow o k (1 - o k) (t k - o k)

$\delta_k \gets o_k(1-o_k)(t_k-o_k)$ 对于网络的每个隐藏单元

h $h$ 计算它的误差项

δ h $\delta_h$ :

δ h \leftarrow o h (1 - o h) \sum w k h δ k

$\delta_h \gets o_h(1-o_h) \sum w_{kh}\delta_k$ 更新每个网络的权值

w ji $w_{ji}$ :

w j i \leftarrow w j i + Δ w j i

$w_{ji} \gets w_{ji}+\Delta w_{ji}$ 其中

Δ w j i = η δ j x j i

$\Delta w_{ji} = \eta \delta_jx_{ji}$ 反向传播已经开发除了许多变种，最常见的是修改权值更新法则，使第

n $n$ 次迭代的权值更新部分依赖于第

n−1 $n-1$ 次迭代时的更新，即

Δ w j i (n) = η δ j x j i + α Δ w j i (n - 1)

$\Delta w_{ji}(n) = \eta\delta_jx_{ji} + \alpha\Delta w_{ji}(n-1)$ 其中

α∈[0,1) $\alpha \in [0,1)$ ，一个冲量常数，上式右边第二项叫做冲量项。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
多层网络和反向传播笔记

在我之前的博客中讲到了感知器（感知器），它是用于线性可分模式分类的最简单的神经网络模型，单个感知器只能表示线性的决策面，而反向传播算法所学习的多层网络能够表示种类繁多的非线性曲面。对于多层网络，如果使用线性单元的话，多个线性单元的连接仍然是线性函数，所以还不能表征非线性函数。使用感知器单元，但是它不连续所以也就不可微，不适合梯度下降算法。我们需要这么一种单元，它的输出是输入的非线性函数，而且输出是输
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。