深度前馈网络原理及Batch训练原理

最新推荐文章于 2024-09-24 13:30:00 发布

瑞行AI

最新推荐文章于 2024-09-24 13:30:00 发布

阅读量1.9k

点赞数

分类专栏：算法原理

本文链接：https://blog.csdn.net/cymy001/article/details/77859415

版权

算法原理专栏收录该内容

28 篇文章

订阅专栏

本文介绍了前馈神经网络的基本概念，包括模型结构、隐藏层作用、激活函数选择及网络训练方法。通过XOR问题示例，阐述了批量训练的并行机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前馈神经网络通常用许多不同函数复合在一起来表示。例如，我们有三个函数 f (1); f (2) 和 f (3) 连接在一个链上以形成f(x) = f (3)(f (2)(f (1)(x)))。f (1) 被称为网络的第一层（first layer）， f (2) 被称为第二层（second layer），以此类推，最后一层被称为输出层（output layer）。链的全长称为模型的深度（depth）。前馈网络的训练过程中，让 f(x) 去匹配 f ∗(x) 的值。训练数据为我们提供了在不同训练点上取值的、含有噪声的 f ∗(x) 的近似实例。每个样本 x 都伴随着一个标签 y ≈ f ∗(x)。训练样本直接指明了输出层在每一点 x 上必须做什么，它必须产生一个接近 y 的值；但是训练数据并没有直接指明其他层应该怎么做，学习算法必须决定如何使用这些层来产生想要的输出，但是训练数据并没有说每个单独的层应该做什么。相反，学习算法必须决定如何使用这些层来最好地实现 f ∗ 的近似。因为训练数据并没有给出这些层中的每一层所需的输出，所以这些层被称为隐藏层（hidden layer）。把层想象成由许多并行操作的单元（unit）组成，每个单元在某种意义上类似一个神经元，它接收的输入来源于许多其他的单元，并计算它自己的激活值。

为了扩展线性模型来表示 x 的非线性函数，我们可以把线性模型用在一个变换后的输入 ϕ(x) 上，这里 ϕ 是一个非线性变换。可以认为 ϕ 提供了一组描述 x 的特征，或者认为它提供了 x 的一个新的表示。如何选择映射 ϕ ？深度学习的策略是去学习 ϕ 。模型 y = f(x; θ; w) =ϕ(x; θ)⊤w里有两种参数：用于从一大类函数中学习 ϕ 的参数 θ，以及用于将 ϕ(x) 映射到所需的输出的参数 w。部署一个前馈网络所需的每个设计决策：选择用于计算隐藏层值的激活函数（activationfunction）；设计网络的结构，包括网络应该包含多少层、这些层应该如何连接，以及每一层包含多少单元。在深度神经网络的学习中用反向传播（back propagation）算法和它的现代推广可以高效地计算复杂函数的梯度。

XOR问题为例形象化给出Batch训练的并行机制：