SpinalNet: Deep Neural Network with Gradual Input

摘要

在过去的几年中,深度神经网络(DNNs)在现实世界的各种应用中取得了显著的成功。但是,DNNs考虑的输入量大,参数也多,计算量大。我们研究人体感觉系统,并提出SpinalNet以较少的计算资源达到更高的精度。在典型的神经网络(NN)架构中,隐含层接收第一层的输入,然后将中间结果传输到下一层。在提出的SpinalNet中,隐含层的结构分配到三个扇区:1)输入行,2)中间行,3)输出行。棘网中间行含有少量神经元。输入分割的作用是使每个隐藏层能够接收前一层的输入和输出的一部分。因此,隐含层的传入权值数量明显低于传统的DNNs。由于SpinalNet的所有层都直接影响输出行,所以不存在消失梯度的问题。我们还研究了脊髓网络的全连接层与几个著名的DNN模型,并进行了传统的学习和迁移学习。我们观察到,在大多数DNNs中,误差显著减少,计算成本更低。我们还在QMNIST、Kuzushiji-MNIST、EMNIST(字母、数字和平衡)、STL-10、Bird225、Fruits 360和Caltech- 101数据集上获得了最先进的(SOTA)性能。建议的SpinalNet脚本可以通过以下链接获得:https://github.com/dipuk0506/SpinalNet

Ⅰ.介绍

深度神经网络(DNNs)在各个科学和工程领域带来了最先进的性能[1][4]。DNNs通常有大量的输入特征,考虑更多的参数通常可以提高预测的准确性。第一个隐藏层的大小至关重要。一个小的第一隐藏层不能正确地传播所有的输入特征,而一个大的第一隐藏层会大大增加权重的数量。传统DNNs的另一个局限性是梯度消失。当层数较大时,在接近输出的参数处梯度较大,而在接近输入的参数处梯度可以忽略不计。由于梯度消失的问题,DNN的训练变得困难。
人类的大脑也从我们的皮肤接收很多信息。无数的触觉神经元从我们身体的不同部位发出触觉、热感、振动感等。它们能感知压力、热、振动、复杂的纹理、硬度、物质的状态等。随着时间的推移,人类的触觉敏感度会有所不同。虽然人类还不知道确切的机制,但目前的知识基础表明,我们的脊髓神经元具有巨大的功能。人类脊髓的不同部位接收不同的触觉。多个椎体可连接到一个内脏。图1(a)给出了人类触摸传感器与脊髓之间的简化粗略连接。

Alt

图1。我们通过模仿人体的体感系统来开发SpinalNet,以有效地接收大量的输入,并实现更好的性能。(a)人体感觉系统的一半,表现我们的脊髓如何接收来自身体的感觉信号。(b)拟议棘网的结构。所提出的神经网络由输入行、中间行和输出行组成。中间行包含多个隐藏层。每个隐藏层接收输入的一部分。除第一层外的所有层也接收前一层的输出。输出层将中间行所有隐藏神经元的加权输出相加。用户还可以为任意数量的输入、中间神经元和输出构造和训练一个棘网。

研究人员通过模仿猫视觉皮层的功能开发了卷积神经网络(CNN),这对卷积神经网络[6]的准确性带来了重大改进。人类神奇的脊柱结构和最近cnn的成功激励我们开发一个渐进输入的神经网络。
减少计算量的一个著名方法是池化操作[7]。然而,池化会导致信息的丢失。解决消失梯度问题的常用方法是ResNet和DenseNet。它们允许在不同的层上进行快捷连接。因此,在输入[8]附近的神经元,梯度仍然很高。随着深度的增加,resnet总是能够提供更好的性能,深度可以达到数千层。然而,随着深度的增加,ResNet有一个轻微的边际改进。而且,非常深的resnet有一个减少特征再利用的问题。因此,Sergey等人提出了广泛的残差网络[9],并取得了优异的性能。Zifeng等人也在较浅、较宽的NNs[10]中获得了较好的性能。Gao等人提出DenseNet,连接所有层[11]。基于以下两个原因,在大多数情况下,DenseNet训练速度更快,性能更好:1)DenseNet的所有层都被连接;2)它们使密集的层比ResNet窄。当所有层都连接起来时,梯度和特性重用不会在层上消失。然而,由于所有层都是连接的,每增加一层的网络大小就需要从所有现有层连接到该层。因此,深层DenseNet在计算上是昂贵的。神经网络的自适应结构学习(AdaNet)在训练过程中实现了神经元的连接和权值的优化。对DNN的所有可能连接的考虑是计算密集型的。新神经元的形成需要考虑将其与其他神经元连接起来。因此,AdaNet适用于浅层NNs[12]、[13]。
虽然DNNs在多个领域都取得了SOTA的性能,但在训练和执行过程中,DNNs仍然承受着巨大的计算开销[14]。本文提出如图1(b)所示的SpinalNet,以更小的计算开销提高性能。所提出的具有渐进和重复输入能力的结构,使网络神经网络能够以较少的参数实现预期的结果。我们研究提出的SpinalNet作为VGG-5网络的全连接层,并在四个MNIST数据集中接收SOTA性能。我们在STL-10、Bird225、Fruits 360和Caltech-101数据集上应用SpinalNet全连接层的迁移学习,并获得SOTA性能。我们在超过17个不同的数据集中研究SpinalNet及其变异。我们也得到较好的结果在其他数据集用至少一个变种的SpinalNet。
本文组织如下:Section Ⅱ介绍了SpinalNet的理论背景,讨论了人类的脊髓和提出的SpinalNet的相似性,证明了SpinalNet的通用近似,并讨论了迁移学习。Section Ⅲ展示了SpinalNet在其他解决回归和分类问题相关竞赛的实验结果。Section Ⅳ描述了SpinalNet的前景,Section Ⅴ是总结部分。

Ⅱ、理论背景

通常有两种类型的DNNs:卷积的和非卷积的。非卷积神经网络的结构由完全连接的输入层、隐藏层和输出层组成。深度cnn包含卷积层和完全连接层。由于卷积和扁平化程序,参数的数量急剧增加。池化层的任务就是减少网络参数的数量[15]。根据Vogt的研究[16],池化层在DNN方法中的重要性主要有两点。首先,池化减少

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值