prml读书笔记(5.1 前馈神经网络函数)

第五章 神经网络

5.1 前馈神经网络函数   

第三章第四章讨论的基于线性模型的回归与分类问题,都是以固定的非线性基函数的线性连接为基础,形式为:


这里f(.)对于分类问题是非线性激活函数,对于回归问题是特性函数。我们的目标是通过依靠于参数的基函数来扩展这个模型,然后允许参数在训练中进行调整。神经网络使用如上式(5.1)的基函数,每一个基函数都是一个输入的线性结合的非线性函数,在这里,在线性联合中的系数是可以调整的。

这导致了基本的神经网络模型,可以被一系列的函数变换来描述。首先我们构造M个输入x1,x2,x3…….的线性联合,形式为:


J=1,2,3……….M,上标(1)代表了相应的参数在神经网络的第一层,代表权重,代表偏差。被人为是激活值。每一个a使用可微的,非线性的激活函数h(.)变换得出:


这些数对应于(5.1)基函数的输出,在神经网络的上下文中被称为隐藏单元。非线性函数h(.)一般选择为S型函数如逻辑s型函数,或者tanh函数。追寻(5.1),这些值也可以线性联合给出输出单元的激活值:


K=1,2,3,……,K,K是输出值的总数。这个变换对应于神经网络的第二层,是偏差值。最后,输出单元激活使用一个适当的激活函数变换,给出一系列神经网络的输出值。激活函数的选择由初始数据和目标向量的假设描述来决定。就像在第三章第四章讨论的线性模型一样。对于标准回归问题,激活函数是特性,所以。类似的,对于多元二项分类问题,每一个输出单元激活是使用逻辑S型函数的变换,所以:


这里:


最后,对于多类问题,使用柔化最大值激活函数形式为。输出单元激活函数的选择将会在5.2节讨论。

我们可以结合不同的阶段,给出整的的神经网络函数,对于S型输出单元激活函数,形式为:


这里,所有的权重和偏差参数被组织到向量w。因此,神经网络模型是一个从输入向量{xi}到输出向量{yi}被可调整参数向量w的非线性函数。

评估(5.7)的过程可以被解释为在神经网络中信息的向前传播。我们必须强调这些图不代表在第八章考虑的那种概率图形模型,因为内部的节点代表了确定性的变量不是随机的变量。基于这一点,我们为这两种模型采用不同的图形概念。之后我们可以看到对于神经网络怎么给出一个概率解释。

正如在3.1节讨论的,在(5.2)中的偏差参数可以被吸收到权重参数中,这里,(5.2)式形式变为:


类似地,我们将第二层的偏差参数吸收到第二层的权重中,所以整个的神经网络函数变为:


我们可以从图5.1看出,神经网络模型包括两个过程阶段,他们中的每一个都与4.1.7节的感知机相似,基于这个原因,这个神经网络(前馈传播)也被认为是多层感知机,或者是MLP。然而,与感知机相比,一个关键的不同是,在隐藏单元神经网络使用连续的S型非线性,而感知机使用阶梯函数非线性。这意味着神经网络函数对于神经网络参数是可微的,这个特性在网络训练中是非常重要的角色。

如果在网络中所有隐藏单元的激活函数被定义为线性的,然后对于任意这样的网络,我们可以找到一个没有隐藏单元的等价的网络。这是一个事实:连续线性变换的组合也是一个线性变换。然而,如果隐藏单元的数目比输入(或输出)单元的数目少,网络生成的变换不是从输入到输出的最一般性的可能的线性变换,因为在隐藏单元降维时信息丢失了。在12.4.2节,我们展示了线性单元的网络引起主成分分析。然而,一般情况下,几乎没有兴趣在对线性单元的多层网络。

如图5.1的网络构架是在实践中最常见的网络构架。然而,它是很容易推广的,通过考虑处理的附加层,每一个包含(5.4)的加权线性组合的形式,(5.4)包含使用非线性激活函数的元素智能变换。注意,在学术上,这里有些关于前馈传播网络层数术语的困惑。图5.1的网络可能会被描述为3层网络,有时看作单隐层。我们推荐把图5.1网络看成2层网络,因为他是可调整权重层数,这对决定网络的特性非常重要。

网络架构的另外一个推广是跳过层连接跳过层连接,每个跳过层连接结合相应的自适应参数。例如在一个两层网络这些将直接从输入到输出。基本上,一个有S型隐藏单元的网络通过使用小的第一层权重模拟skip层连接,在其工作范围内,隐藏单元是线性的,然后从隐藏的单位到输出补偿一个很大的权重值。然而,在实践中,包括跳过层连接可能是有优势的。

此外,网络可以是稀疏的,不是所有的连接在一层存在。在5.5.6节我们讨论卷积神经网络时我们可以看到一个稀疏网络架构的例子。

因为网络图与他的数学公式有直接的相关性,所以我们通过考虑一个更复杂的网络图来研究更一般性的网络映射。然而,必须局限于前馈传播架构,换句话说,一个开放定向的循环,确保输出值是有输入值确认的函数值。图5.2是一个简单的例子。在这样的网络中每一个(隐藏或输出)单元通过下面的公式计算给定的函数:


在这里,这个和包括所有的单元为单位k发送了连接(偏差参数被包含了和中)。对于给定的一组应用到神经网络的输入值,(5.10)的连续应用允许在神经网络中的所有单元的激活函数被评价,这些单元包括哪些输出单元。

前馈网络的逼近特性已经有很宽的研究了(),并且发现很一般。例如,一个线性输出的两层网络在一个紧凑的输入域可以均匀逼近任意连续函数达到任意精度,这个网络有足够大量的隐藏单元。这个结果对很大范围的隐藏单元激活函数都成立,除了多项式。虽然上述理论是可靠的,但是关键是如何为给定的训练数据找的合适的参数值,在本章的后面小节中会展现对于这个问题基于最大释然和贝叶斯方法的有效解决方案。

两层网络的性能去模拟一个广泛的函数在图5.3画出了。这个图形也展现了独立的隐藏单元合作的逼近最后的函数。再简单的分类问题中隐藏函数的作用使用了一个在附录A中描述的对称的分类数据在图5.4画出了。

 

 

 

 


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值