【神经网络】神经网络的单元格和层

原文:http://www.asimovinstitute.org/neural-network-zoo-prequel-cells-layers/


细胞

        本文展示了不同类型的细胞和各种层连接方式,但并没有真正涉及每种细胞类型的工作方式。许多细胞类型我最初给出不同的颜色以更清楚地区分网络,但是我发现这些细胞或多或少地以相同的方式工作,因此您可以在基本细​​胞图像下找到描述。

        一个基本的神经网络单元,类型可以在常规的前馈结构中找到,非常简单。细胞通过权重连接到其他神经元,即它可以连接到前一层中的所有神经元。每个连接都有自己的权重,起初通常只是一个随机数。体重可以是负的,正的,非常小的,非常大的或零。它连接的每个单元格的值乘以其各自的连接权重。结果值全部加在一起。除此之外,还增加了一个偏见。偏差可以防止细胞在输出零点时卡住,并且可以加速某些操作,减少解决问题所需的神经元数量。偏差也是一个数字,有时是恒定的(通常是-1或1),有时是可变的。这个总和然后通过一个激活函数传递。由此产生的值就变成了细胞的值。


        卷积单元非常像前馈细胞,除了它们通常仅连接到来自上一层的少数神经元。它们通常用于保存空间信息,因为它们不是与一些随机细胞相连,而是与一定距离的所有细胞相连。这使得它们适用于具有大量本地化信息的数据,例如图像和声波(但主要是图像)。解卷积单元恰恰相反:它们倾向于通过本地连接到下一层来解码空间信息。这两种细胞通常都有很多独立培养的克隆; 每个克隆都有自己的权重,但连接方式完全相同。这些克隆可以被认为是位于不同的网络中,它们都具有相同的结构。两者基本上与常规单元相同,但用法不同。


        汇集和插入单元格经常与卷积单元结合使用。这些细胞并不是真正的细胞,更多的是纯粹的操作。合并单元接收传入连接并决定哪个连接通过。在图像中,这可以被认为是缩小图片。您不能再看到所有像素,并且必须知道要保留哪些像素以及要丢弃哪些像素。插值单元执行相反的操作:它们接收一些信息并将其映射到更多信息。额外的信息组成,就像在放大小分辨率图片的地方一样。插入单元并不是池化单元的唯一逆向操作,但它们相对常见,因为它们快速且易于实现。它们分别与卷积和去卷积单元相似。


        平均值和标准差单元格(几乎完全在配偶中发现为概率单元格)用于表示概率分布。平均值是平均值,标准偏差表示偏离该平均值(两个方向)有多远。例如,用于图像的概率单元可以包含关于特定像素中有多少红色的信息。平均值会说例如0.5,标准偏差为0.2。当从这些概率单元采样时,人们会在高斯随机数发生器中输入这些值,导致0.4到0.6之间的任何结果都是相当可能的结果,其中距0.5的值越小越不太可能(但仍然可能)。他们通常完全连接到前一层或下一层,并且他们没有偏见。


        复发细胞不仅在层次领域有联系,而且随着时间的推移也有联系。每个单元内部存储其先前的值。它们与基本单元格一样更新,但具有额外的权重:连接到单元格的先前值,大部分时间也连接到同一图层中的所有单元格。当前值和存储的前一个值之间的这些权重与非易失性存储器(如RAM)非常相似,继承了具有某种“状态”的两个属性,如果不供给则消失。因为之前的值是通过激活函数传递的值,并且每次更新都通过激活函数将此激活值与其他权重一起传递,所以信息不断丢失。实际上,保留率很低,只有四五次迭代,几乎所有的信息都丢失了。


        长期的短期记忆细胞 用于解决复发细胞中发生快速信息丢失的问题。LSTM单元是逻辑电路,从存储器单元为计算机设计的方式复制而来。与存储两个状态的RNN单元相比,LSTM单元存储四个:输出的当前值和最后值以及“存储单元”状态的当前值和最后值。他们有三个“大门”:输入,输出,忘记,他们也只是经常输入。每个门都有自己的重量,这意味着连接到这种类型的单元需要设置四个权重(而不是一个)。闸门的功能与流动闸门非常相似,而不是围栏闸门:它们可以让所有的东西通过,只是一点点,没有任何东西,或者介于两者之间的东西。这是通过将输入信息乘以范围从0到1的值来实现的,该值存储在该门控值中。然后,输入门决定允许将多少输入添加到单元格值。输出门决定了网络其余部分可以看到多少输出值。忘记门没有连接到输出单元的先前值,而是连接到先前的存储单元值。它确定最后一个存储单元状态保留多少。由于它没有连接到输出,所以信息丢失少得多,因为循环中没有激活函数。它确定最后一个存储单元状态保留多少。由于它没有连接到输出,所以信息丢失少得多,因为循环中没有激活函数。它确定最后一个存储单元状态保留多少。由于它没有连接到输出,所以信息丢失少得多,因为循环中没有激活函数。


        门控复发单位(细胞)是LSTM细胞的变体。他们也使用大门来对抗信息丢失,但只用2个门即可完成:更新和重置。这使得他们的表达能力稍差,但也稍微快一点,因为他们在任何地方使用的连接较少。实质上,LSTM单元和GRU单元之间存在两个区别:GRU单元没有受输出门保护的隐藏单元状态,并且它们将输入和忘记门组合成单个更新门。这个想法是,如果你想允许许多新的信息,你可能会忘记一些旧信息(和其他方式)。



        连接神经元形成图形的最基本方法是将所有东西连接到绝对一切。这可以在霍普菲尔德网络和玻尔兹曼机器中看到。当然,这意味着连接的数量呈指数增长,但表现力毫不妥协。这被称为完全(或完全)连接。

        一段时间后,发现将网络分成不同的层是一个有用的特征,其中层的定义是一组或一组彼此不相连的神经元,但仅限于来自其他组的神经元, 。这个概念例如在限制玻尔兹曼机器中使用。现在,使用图层的想法已经推广到任何层数,几乎可以在所有当前的架构中找到它。这(也许是令人困惑的)也被称为完全连接或完全连接,因为实际上完全连接的网络是非常罕见的。

        卷积连接层比完全连接的层更受约束:我们只将每个神经元连接到其他邻近组中的神经元。如果用于将一对一直接馈入网络(例如,每个像素使用一个神经元),则图像和声波包含非常多的信息。卷积连接的想法来自空间信息可能很重要的观察结果。事实证明,这是一个很好的猜测,因为它被用于许多基于图像和声波的神经网络应用。然而,这种设置不如完全连接的层表现力。实质上,它是一种“重要性”过滤方式,决定哪些紧密分组的信息包是重要的; 卷积连接对降低维度非常有用。在什么空间距离神经元仍然可以连接取决于实施,但范围高于4或5神经元很少使用。请注意,“空间”通常指二维空间,这就是为什么大多数表示显示正在连接的三维神经元表; 连接范围适用于所有维度。

        另一种选择当然是随机连接的神经元这也有两个主要的变化:允许所有可能连接的百分比,或者连接层之间的一些百分比的神经元。随机连接有助于线性降低网络性能,并可用于完全连接的层出现性能问题的大型网络。在一些情况下,稍微更加稀疏的连接层和稍微更多的神经元可以表现更好,尤其是在需要存储大量信息但不需要交换太多信息的情况下(有点类似于卷积连接层的有效性,随机)。非常稀疏的连接系统(1%或2%)也被使用,如ELM,ESN和LSM中所见。特别是在尖峰网络的情况下,这很有意义,因为神经元的连接越多,每一个重量的能量就越少,这意味着更少的传播和重复的模式。


        时间延迟连接是神经元之间的连接(通常来自同一层,甚至与自己连接)不能从前一层获得信息,而是从过去的一层(以前的迭代,主要是)。这允许存储时间(时间,序列或顺序)相关信息。这些类型的连接通常会不时手动重置,以清除网络的“状态”。与常规连接的关键区别在于,即使网络未经过培训,这些连接也会不断变化。

下图显示了上述类型的一些小型样本网络及其连接。当我被困在与什么相关的东西时(特别是在使用LSTM或GRU单元时),我使用它:


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值