【深度学习笔记】4.前馈神经网络

前馈神经网络

发展历程

avatar

神经元(M-P)

神经元是1943年由两名科学家首次提出的神经元模型。

avatar

在M-P模型中,神经元接受其他n个神经元的输入信号(0或1),这些输入信号经过权重加权并求和,将求和结果与阈值(threshold) θ 比较,然后经过激活函数处理,得到神经元的输出。
y = ∑ i = 1 n ω i j x i + θ y=\sum^n_{i=1}\omega_{ij}x_i+\theta y=i=1nωijxi+θ
M-P 模型可以表示多种逻辑运算,如取反运算、逻辑或、逻辑与。

  • 取反运算可以用单输入单输出模型表示,即如果输入为0则输出1,如果输入为1则输出0。由M-P模型的运算规则可得 w = -2, θ = -1w=−2,θ=−1.
avatar
  • 逻辑或与逻辑与运算可以用双输入单输出模型表示。以逻辑与运算为例, w_1=1,w_2=1, θ =1.5w1=1,w2=1,θ=1.5.
avatar

网络结构

人工神经网络由神经元模型构成,这种由许多神经元组成的信息处理网络具有并行分布结构。

avatar

感知器

单层感知器

1958年科学家提出了感知器。它与M-P不同的是可以通过训练自动的确认参数。其训练方式是监督学习,通过实际输出与整体期望之差来修正模型参数。
w i ← w i + α ( r − y ) x θ ← θ − α ( r − y ) \begin{aligned} w_{i} & \leftarrow w_{i}+\alpha(r-y) x \\ \theta & \leftarrow \theta-\alpha(r-y) \end{aligned} wiθwi+α(ry)xθα(ry)
感知器权重调整的基本思路就是:假设输出y与期望r不相等,则调整权重和参数

avatar

其训练过程如下:

avatar

多层感知器

多层感知器就是基于单层感知器的扩充,使其可以解决线性不可分的问题(无法用一个线性模型进行分类)。

avatar

多层感知器指的是由多层结构的感知器递阶组成的输入值向前传播的网络,也被称为前馈网络或正向传播网络。

以三层结构的多层感知器为例,它由输入层、中间层及输出层组成

  • 与M-P模型相同,中间层的感知器通过权重与输入层的各单元相连接,通过阈值函数计算中间层各单元的输出值
  • 中间层与输出层之间同样是通过权重相连接

avatar

BP算法

多层感知器的训练使用误差反向传播算法(Error Back Propagation),即BP算法。BP算法最早有沃博斯于1974年提出,鲁梅尔哈特等人进一步发展了该理论。

BP算法的基本过程

  • 前向传播计算:由输入层经过隐含层向输出层的计算网络输出
  • 误差反向逐层传递:网络的期望输出与实际输出之差的误差信号由输出层经过隐含层逐层向输入层传递
  • 由“前向传播计算”与“误差反向逐层传递”的反复进行的网络训练 过程

BP算法就是通过比较实际输出和期望输出得到误差信号,把误差信 号从输出层逐层向前传播得到各层的误差信号,再通过调整各层的连接权重以减小误差。权重的调整主要使用梯度下降法:
Δ w = − α ∂ E ∂ w \Delta w = -\alpha \frac{\partial E}{\partial w} Δw=αwE

激活函数

激活函数在神经网络中充当神经元的角色,将求和后的值传入激活函数中然后进行下一步计算。

在M-P模型中,用阶跃函数作为激活函数,但该函数不连续且不可导。所以后续提出了Sigmoid作为新的激活函数进行替代

avatar

其中Sigmoid的导数为
d f ( u ) d u = f ( u ) ( 1 − f ( u ) ) \frac{df(u)}{du}=f(u)(1-f(u)) dudf(u)=f(u)(1f(u))
avatar

当然,除了Sigmoid以外,常用的激活函数也有很多。当中最出名的就有ReLu和tanh

avatar

BP算法示例

下面以一个中间层(最简单的网络)为例,w是输入层与中间层之间的权重。

avatar

  • 首先在完成前向传播以后,我们能得到一个预测值 y ^ \widehat{y} y 。假设损失函数是E,对连接权重 w 2 j 1 w_{2j1} w2j1的求导展开符合函数为:

∂ E ∂ w 2 j 1 = ∂ E ∂ y ∂ y ∂ u 21 ∂ u 21 ∂ w 2 j 1 = − ( r − y ) y ( 1 − y ) z j \begin{array}{c}\frac{\partial E}{\partial w_{2 j 1}} =\frac{\partial E}{\partial y} \frac{\partial y}{\partial u_{21}} \frac{\partial u_{21}}{\partial w_{2 j 1}} \\ =-(r-y) y(1-y) z_{j}\end{array} w2j1E=yEu21yw2j1u21=(ry)y(1y)zj

这里 z j z_j zj代表中间层的值

  • 然后,中间层到输出层的连接权重调整如下

Δ w 2 j 1 = α ( r − y ) y ( 1 − y ) z j Δw2j1=α(r−y)y(1−y)z j Δw2j1=α(ry)y(1y)zj

  • 最后,调整输入层与中间层的连接权重

∂ E ∂ w 2 j 1 = ∂ E ∂ y ∂ y ∂ u 21 ∂ u 21 ∂ w 2 j 1 = − ( r − y ) y ( 1 − y ) z j \frac{∂E}{∂_{w2j1}}=\frac{∂E}{∂y}\frac{∂y}{∂u21}\frac{∂u21}{∂w2j1}=-(r-y)y(1-y)z_j w2j1E=yEu21yw2j1u21=(ry)y(1y)zj

中间层到输出层

avatar

输入层到中间层

avatar

优化问题

难点

  • 参数过多,影响训练
  • 非凸优化问题:即存在局部最优而非全局最优解,影响迭代
  • 梯度消失问题,下层参数比较难调
  • 参数解释起来比较困难

需求

  • 计算资源要大
  • 数据要多
  • 算法效率要好:即收敛快

非凸优化问题

avatar

梯度消失问题

avatar

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值