【神经网络】神经网络的单元格和层

最新推荐文章于 2022-09-06 21:42:22 发布

ChenVast

最新推荐文章于 2022-09-06 21:42:22 发布

阅读量4.8k

点赞数

分类专栏： Machine Learning 机器学习算法理论与实战文章标签：神经网络

机器学习算法理论与实战同时被 2 个专栏收录

156 篇文章 27 订阅

订阅专栏

Machine Learning

132 篇文章 28 订阅

订阅专栏

原文：http://www.asimovinstitute.org/neural-network-zoo-prequel-cells-layers/

细胞

本文展示了不同类型的细胞和各种层连接方式，但并没有真正涉及每种细胞类型的工作方式。许多细胞类型我最初给出不同的颜色以更清楚地区分网络，但是我发现这些细胞或多或少地以相同的方式工作，因此您可以在基本细胞图像下找到描述。

一个基本的神经网络单元，类型可以在常规的前馈结构中找到，非常简单。细胞通过权重连接到其他神经元，即它可以连接到前一层中的所有神经元。每个连接都有自己的权重，起初通常只是一个随机数。体重可以是负的，正的，非常小的，非常大的或零。它连接的每个单元格的值乘以其各自的连接权重。结果值全部加在一起。除此之外，还增加了一个偏见。偏差可以防止细胞在输出零点时卡住，并且可以加速某些操作，减少解决问题所需的神经元数量。偏差也是一个数字，有时是恒定的（通常是-1或1），有时是可变的。这个总和然后通过一个激活函数传递。由此产生的值就变成了细胞的值。

卷积单元非常像前馈细胞，除了它们通常仅连接到来自上一层的少数神经元。它们通常用于保存空间信息，因为它们不是与一些随机细胞相连，而是与一定距离的所有细胞相连。这使得它们适用于具有大量本地化信息的数据，例如图像和声波（但主要是图像）。解卷积单元恰恰相反：它们倾向于通过本地连接到下一层来解码空间信息。这两种细胞通常都有很多独立培养的克隆; 每个克隆都有自己的权重，但连接方式完全相同。这些克隆可以被认为是位于不同的网络中，它们都具有相同的结构。两者基本上与常规单元相同，但用法不同。

汇集和插入单元格经常与卷积单元结合使用。这些细胞并不是真正的细胞，更多的是纯粹的操作。合并单元接收传入连接并决定哪个连接通过。在图像中，这可以被认为是缩小图片。您不能再看到所有像素，并且必须知道要保留哪些像素以及要丢弃哪些像素。插值单元执行相反的操作：它们接收一些信息并将其映射到更多信息。额外的信息组成，就像在放大小分辨率图片的地方一样。插入单元并不是池化单元的唯一逆向操作，但它们相对常见，因为它们快速且易于实现。它们分别与卷积和去卷积单元相似。

平均值和标准差单元格（几乎完全在配偶中发现为概率单元格）用于表示概率分布。平均值是平均值，标准偏差表示偏离该平均值（两个方向）有多远。例如，用于图像的概率单元可以包含关于特定像素中有多少红色的信息。平均值会说例如0.5，标准偏差为0.2。当从这些概率单元采样时，人们会在高斯随机数发生器中输入这些值，导致0.4到0.6之间的任何结果都是相当可能的结果，其中距0.5的值越小越不太可能（但仍然可能）。他们通常完全连接到前一层或下一层，并且他们没有偏见。

复发细胞不仅在层次领域有联系，而且随着时间的推移也有联系。每个单元内部存储其先前的值。它们与基本单元格一样更新，但具有额外的权重：连接到单元格的先前值，大部分时间也连接到同一图层中的所有单元格。当前值和存储的前一个值之间的这些权重与非易失性存储器（如RAM）非常相似，继承了具有某种“状态”的两个属性，如果不供给则消失。因为之前的值是通过激活函数传递的值，并且每次更新都通过激活函数将此激活值与其他权重一起传递，所以信息不断丢失。实际上，保留率很低，只有四五次迭代，几乎所有的信息都丢失了。

长期的短期记忆细胞 用于解决复发细胞中发生快速信息丢失的问题。LSTM单元是逻辑电路，从存储器单元为计算机设计的方式复制而来。与存储两个状态的RNN单元相比，LSTM单元存储四个：输出的当前值和最后值以及“存储单元”状态的当前值和最后值。他们有三个“大门”：输入，输出，忘记，他们也只是经常输入。每个门都有自己的重量，这意味着连接到这种类型的单元需要设置四个权重（而不是一个）。闸门的功能与流动闸门非常相似，而不是围栏闸门：它们可以让所有的东西通过，只是一点点，没有任何东西，或者介于两者之间的东西。这是通过将输入信息乘以范围从0到1的值来实现的，该值存储在该门控值中。然后，输入门决定允许将多少输入添加到单元格值。输出门决定了网络其余部分可以看到多少输出值。忘记门没有连接到输出单元的先前值，而是连接到先前的存储单元值。它确定最后一个存储单元状态保留多少。由于它没有连接到输出，所以信息丢失少得多，因为循环中没有激活函数。它确定最后一个存储单元状态保留多少。由于它没有连接到输出，所以信息丢失少得多，因为循环中没有激活函数。它确定最后一个存储单元状态保留多少。由于它没有连接到输出，所以信息丢失少得多，因为循环中没有激活函数。

门控复发单位（细胞）是LSTM细胞的变体。他们也使用大门来对抗信息丢失，但只用2个门即可完成：更新和重置。这使得他们的表达能力稍差，但也稍微快一点，因为他们在任何地方使用的连接较少。实质上，LSTM单元和GRU单元之间存在两个区别：GRU单元没有受输出门保护的隐藏单元状态，并且它们将输入和忘记门组合成单个更新门。这个想法是，如果你想允许许多新的信息，你可能会忘记一些旧信息（和其他方式）。

层

连接神经元形成图形的最基本方法是将所有东西连接到绝对一切。这可以在霍普菲尔德网络和玻尔兹曼机器中看到。当然，这意味着连接的数量呈指数增长，但表现力毫不妥协。这被称为完全（或完全）连接。

一段时间后，发现将网络分成不同的层是一个有用的特征，其中层的定义是一组或一组彼此不相连的神经元，但仅限于来自其他组的神经元，。这个概念例如在限制玻尔兹曼机器中使用。现在，使用图层的想法已经推广到任何层数，几乎可以在所有当前的架构中找到它。这（也许是令人困惑的）也被称为完全连接或完全连接，因为实际上完全连接的网络是非常罕见的。

卷积连接层比完全连接的层更受约束：我们只将每个神经元连接到其他邻近组中的神经元。如果用于将一对一直接馈入网络（例如，每个像素使用一个神经元），则图像和声波包含非常多的信息。卷积连接的想法来自空间信息可能很重要的观察结果。事实证明，这是一个很好的猜测，因为它被用于许多基于图像和声波的神经网络应用。然而，这种设置不如完全连接的层表现力。实质上，它是一种“重要性”过滤方式，决定哪些紧密分组的信息包是重要的; 卷积连接对降低维度非常有用。在什么空间距离神经元仍然可以连接取决于实施，但范围高于4或5神经元很少使用。请注意，“空间”通常指二维空间，这就是为什么大多数表示显示正在连接的三维神经元表; 连接范围适用于所有维度。

另一种选择当然是随机连接的神经元。这也有两个主要的变化：允许所有可能连接的百分比，或者连接层之间的一些百分比的神经元。随机连接有助于线性降低网络性能，并可用于完全连接的层出现性能问题的大型网络。在一些情况下，稍微更加稀疏的连接层和稍微更多的神经元可以表现更好，尤其是在需要存储大量信息但不需要交换太多信息的情况下（有点类似于卷积连接层的有效性，随机）。非常稀疏的连接系统（1％或2％）也被使用，如ELM，ESN和LSM中所见。特别是在尖峰网络的情况下，这很有意义，因为神经元的连接越多，每一个重量的能量就越少，这意味着更少的传播和重复的模式。

时间延迟连接是神经元之间的连接（通常来自同一层，甚至与自己连接）不能从前一层获得信息，而是从过去的一层（以前的迭代，主要是）。这允许存储时间（时间，序列或顺序）相关信息。这些类型的连接通常会不时手动重置，以清除网络的“状态”。与常规连接的关键区别在于，即使网络未经过培训，这些连接也会不断变化。

下图显示了上述类型的一些小型样本网络及其连接。当我被困在与什么相关的东西时（特别是在使用LSTM或GRU单元时），我使用它：