读后感与机翻《AOGNets》

最新推荐文章于 2024-09-10 08:38:13 发布

⊙月

最新推荐文章于 2024-09-10 08:38:13 发布

阅读量706

点赞数 1

分类专栏：朱松纯团队成果研究

本文链接：https://blog.csdn.net/weixin_42118657/article/details/110133371

版权

朱松纯团队成果研究专栏收录该内容

9 篇文章

订阅专栏

本文介绍了AOGNets，一种将图像语法（与或图）和深度学习相结合的新型网络结构。AOGNet由多个AOG构建块组成，统一了流行构建块的最佳实践。实验表明，AOGNet在图像分类、目标检测和分割等任务中表现优于ResNet等网络，还具有良好的模型可解释性和对抗鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是在研究朱松纯团队中大量使用的“与或图”概念而找到的一篇学习论文，下述论文并非朱松纯团队的，而是北卡州立大学一个博士生发明的，其实验室专门研究可解释性深度学习。

读后感

作者干了什么事？
- 业界第一个将图像语法（与或图）和深度学习相结合，创造出一种新型网络结构：Deep Grammer Model，该结构在目标分类和目标检测数据集上，获得堪比ResNet的效果。
怎么实现的？
- （细节暂时还没看，下一步结合源码详细研究下）
是否有落地的价值？
- 无论是精度还是速度，似乎很有开展迁移测试的价值。

《AOGNets: Compositional Grammatical Architectures for Deep Learning》，

基于语法模型（与或图语法）的深度学习，CVPR2019，https://github.com/iVMCL/AOGNet-v2

摘要

神经结构是提高深度神经网络(DNNs)性能的基础。这篇文章介绍了深层的语法结构，利用了两个世界的最好:语法模型和DNNs。所提出的结构原则地结合了前者的可组合性和可重构性，以及后者的可学习性和丰富的特征。在本文中，我们利用和或语法(AOG)[55, 75, 74]作为网络生成器，并将生成的网络称为AOGNets。一个AOGNet由许多阶段组成，每个阶段都由许多AOG构建块组成。一个AOG构建块将它的输入fea- ture map沿着特征通道分成N组，然后把它当作一个包含N个单词的句子。然后在自底向上的句子分析中共同实现了短语结构语法和依赖语法，以更好地解释句子的特征和重用。它为最先进的DNNs开发的最佳实践提供了一个统一的框架。在实验中，对AOGNet进行了CIFAR-10、CIFAR-100和ImageNet-1K分类基准测试和MS- COCO目标检测和分割基准测试。在ci远-10、ci远-100和ImageNet-1K中，AOGNet的性能优于ResNet[23]及其大多数变异蚂蚁、ResNeXt[66]和基于注意的变体SENet[27]、DenseNet[29]、DualPathNet[7]。AOGNet还通过网络分析[4]得到了最佳模型可解释性评分。AOGNet在对抗性防御中显示出了更好的潜力。在MS-COCO中，AOGNet获得比Mask R-CNN[22]中的ResNet和ResNeXt脊骨更好的表现。

1 介绍

1.1 动机和目的

近年来，深度神经网络(DNNs)[38,33]在许多视觉任务中显著提高了预测精度，并在图像分类任务中获得了超人的性能[23,58,29,7]。这些进展主要是通过共同解决两个问题的工程网络架构来实现的:通过深入或扩展来增加代表性的能力，以及通过使用随机梯度下降的反向传播来保持优化的可行性(例如，van- ishing和/或爆炸梯度问题)。鉴于目前DNNs缺乏理论基础，这一戏剧性的成功并不一定说明其足够充分。不同的方法值得探索，以扩大神经结构的范围，寻求更好的DNNs。例如，Hinton最近指出了当前卷积神经网络的一个关键缺陷:根据最近的神经科学研究，这些人工网络没有包含足够的层次结构[25,53]。在本文中，我们感兴趣的是语法引导的网络生成器(图1)。

图1所示。说明我们的AOG构建块语法指导网络生成器。由此产生的网络AOGNets在Ima- geNet中使用了40.3M参数，获得了80.18%的top-1精度，显著优于ResNet-152 (77.0%， 60.2M)、ResNeXt-101(79.6%， 8390万)、DenseNet-Cosine-264 (79.6%， 73M)和DualPathNet-98(79.85%， 6160万)。参见正文。(彩色观看效果最佳)

神经结构设计和搜索可以作为乘积空间中包含两个子空间的组合搜索问题(图2 (a))：

由所有有向无环图(DAGs)组成的结构空间，开始节点表示输入原始数据，结束节点表示任务丢失函数。为获得可行的补偿，必须提供折扣。
一个DAG中包含所有可能的im- plementing节点的转换函数的节点操作空间，如Convolu- tion+BatchNorm [31]+ReLU[33]，及其在不同内核大小和不同特征通道数下实现的瓶颈[23]。

图2。举例说明(a)神经结构的空间，(b)基于构造块的设计，(c) GoogLeNet [58]， ResNet [23]， ResNeXt [66]， DenseNet[29]和DualPathNets[7]中流行的构造块的例子。详情见正文。

结构空间几乎是无界的，给定结构的节点操作空间也是组合的。神经结构的设计和搜索是一个具有挑战性的问题，由于搜索空间呈指数大，且目标函数高度非凸。如图2 (b)所示，为了减轻这种差异，模拟神经结构设计和搜索，以设计或搜索积木结构。然后，DNN由预定义数量的阶段组成，每个阶段都有少量的构建块。在一定假设条件下，[1]的理论研究也为这种基于分段的设计提供了理论支持。图2 (c)显示了一些具有不同结构的常用构造块的例子。两个问题自然出现了：

我们能否在一个简单而优雅的框架中统一流行的构建块所使用的最佳实践?更重要的是，我们能否以一种有原则的方式生成建筑块，从而形成网络，从而有效地展开空间(图2 (a)) ?(如果可行)
在不增加模型复杂性和计算成本的情况下，统一的构建块/网络生成器能否在精度、模型可解释性和对抗鲁棒性方面证明性能?如果是的话，其潜在的影响将是广泛而深刻的，因为表征学在许多实际应用中都是如此。

为了解决上述问题,我们首先需要在站在设计底层智慧更好的网络体系结构:它通常在于找到网络结构能够支持灵活多样的信息流动为探索新功能,重用现有的功能在以前的层和back-propagating学习信号(例如,渐变)。那么，我们需要开发和制定哪些关键原则，以使我们能够以一种比现有网络更好的方式有效地展开图2 (a)中的结构空间?组合性、可重构性和横向连通性是认知科学、神经科学和模式理论中众所周知的原则[13,47,19,14,34,14]。它们是人类学习丰富知识和适应不同环境的非凡能力的基础，尤其是在视觉和语言方面。然而，它们还没有完全明确地集成到DNNs中。

在本文中，我们提出了一种构造语法结构，它可以实现构造块设计的组合性、可重组性和横向连通性。我们使用and - or语法(AOG)[55, 75, 74]，并建议采用AOG构建块来统一在现有流行构建块中开发的最佳实践。我们的方法深度集成了分层和组合语法以及DNNs，以便在深度表示学习中充分利用这两个世界的优点。

为什么语法?在自然语言处理和计算机视觉中，语法模型是众所周知的。图像语法[75,10,74,13]是在深度神经网络最近重新流行之前计算机视觉的主要方法之一。随着（DNN）最近的复苏，一个基本的难题出现了，语法模型更明确的组成结构和更好的分析和理论潜力，往往比他们的神经网络对手表现得更差。

正如大卫·芒福德(David Mumford)所指出的那样，语言语法只不过是更古老语法的最新延伸，所有智能动物的大脑都内置了这些语法，用来分析感官输入，构造它们的动作，甚至形成它们的思维。[46]。我们提出的AOG构建块在分析感觉输入方面表达能力很强，弥补了文法和DNNs之间的性能差距。它还实现了灵活多样的网络结构，以满足Hinton在DNNs[25]中提高结构充大性的要求。

1.2 方法概述

我们首先总结现有构建块中的最佳实践，然后简要概述我们提出的AOG构建块(图1)，以及它如何统一现有的构建块。

现有的构建模块通常不能完全实现这三个原则(组合性、可重构性和横向连接)。

InceptionNets或GoogLeNets[58]采用了一种浅层前馈的分裂变换-聚合启发式进行特征探索，其灵感来自于网络中的网络设计[42]和[1]分期设计的理论研究。然而，过滤器的数量和大小是为每个单独的转换而定制的，模块是逐步定制的。交错组卷积[71]具有类似的精神，但使用更简单的方案。
受高速公路网[56]的启发，ResNets[23]提供了一种简单而有效的解决方案，使网络能够在不牺牲优化可行性的情况下享受深入或扩展的乐趣。从表示学习的角度来看，ResNet[23]中的跳转连接有助于有效的特性重用。然而，他们没有意识到在GoogLeNets中所做的拆分部分。
ResNeXts在ResNets中添加了spit组件，并在转换中使用组卷积解决了Inception模块的缺点。
Deep Pyramid ResNets[20]不像vanilla ResNets那样在每个残差单元下采样时急剧增加特征通道，而是在构建块之间逐渐增加特征通道。
DenseNets[29]明确区分了添加到网络的信息和保存的信息。使用了与特征图连接在一起的密集连接，这对于特征探索是有效的，但缺乏像ResNets中那样的特征重用能力。
双路径网络(DPN)[7]并行利用ResNet块和DenseNet块来平衡feature重用和feature exploration。
Deep Layer Aggregation networks (DLA)[69]在堆叠构建块(如ResNet块)时迭代和分层地聚合特征层次。

我们的AOG构建块是分层的，组成和可重新配置的横向连接设计。如图1所示，一个AOG构建块将其输入的feature map沿着feature channels分成N组，并将其视为一个包含N个单词的句子。然后共同实现了自下而上解析句子的短语结构语法(垂直组合)[12,13,11,75,74,55]和依赖语法(图1中粉红色的水平连接)[21,75,14]，以便更好地挖掘和重用特征：

短语结构语法是[55,65]方法的一维特例。它也可以理解为自然语言处理中著名的Cocke- young - kasami (CYK)解析算法根据二进制合成规则的修改版本。
依赖文法被集成以捕获横向连接，并提高表示的灵活性和功能。

在一个AOG构建块中，每个节点对其输入应用一些基本操作T(·)(例如，Conv-BN-ReLU)，节点有三种类型：

终端节点以输入特征图的一个按通道划分的切片(即k-gram)作为输入。
and -node实现复合，它的输入是通过连接其语法子节点的特征来计算的，如果存在横向连接，则添加横向连接。
or节点表示备选组合，其输入是其句法子节点的特征和如果存在横向连接的元素智慧的总和。

我们的AOG构建块统一了在流行构建块中开发的最佳实践，

终端节点实现了在GoogLeNets[58]和ResNeXts[66]中所做的分裂转换启发式(或组卷积)，但在多个级别上(包括重叠的组卷积)。它们还在多个级别上实现跳转连接。与ResNets、densenet和DPNs中的基于级联的叠加方案不同，termninel节点可以并行计算以提高效率。非终端节点实现聚合。
and节点实现类似densenet的聚合(即连接)[29]，用于特性探索。
or节点实现类似resnet的聚合(例如，求和)[23]以实现特性重用。
这种层次性使得Deep Pyramid ResNets[20]中特征通道逐渐增加，也使得网络的深度和宽度得到很好的平衡。
复合结构提供了比DPN[7]和DLA更灵活的信息流[69]。
横向连接在不引入额外参数的情况下，产生了特征多样性，增加了节点沿路径的有效深度。

我们堆叠AOG构建块，形成一个深层的AOG网络，称为AOGNet。图3示出了一个三级AOGNet。我们的AOGNet利用了语法的两个优良特性:(1)基于原语字典和一组生成规则，有原则地构造不同网络结构的灵活性和简便性;以及(ii)它们明确的层次结构和组合结构的高度表达力和简约紧凑。

图3。3阶段AOG网络示意图，第1、3阶段为1个AOG构建块，第2阶段为2个AOG构建块。注意，不同的阶段可以使用不同的AOG构建块。为了简单起见，我们展示了相同的一个。主干可以是普通卷积也可以是卷积+MaxPooling。(彩色观看效果最佳)

2 相关工作和我们的贡献

网络架构是提高DNNs性能的基础。在本节中，我们主要关注手工构建的架构。神经结构搜索的相关工作可参考调查论文[9,68]。

手工制作的网络架构。在5层LeNet5[38]提出20多年后，8层AlexNet[33]在2012年ImageNet[52]上的突破性表现引发了最近神经网络的复苏。AlexNet在操作员领域提出了两种新的见解:直线单元(ReLu)和Dropout。从那时起，人们花了很多精力去学习更深入的类似alexnet.com的网络，他们的直觉是越深越好。VGG网[5]提出了一个19层的网络，其思路是使用多个连续层的小滤波器(如33)通过一层大滤波器获得接受场，以及在卷积中采用较小的步长来保存信息。network-in-network[42]中提出了一种特殊的情况11卷积，用于减小或扩展连续层之间的特征维数，并在许多网络中得到了广泛的应用。VGG网络还显著增加了计算成本和内存占用。

22层的GoogLeNet[59]引入了第一个inception模块和一个11卷积实现的瓶颈方案来降低计算量。进一步深层的主要障碍在于优化中的梯度消失问题，该问题在高速公路网[56]中提出并由ResNets[23]推广的一种新的结构设计——短路径或跳接解决，特别是与批量标准化(BN)[31]相结合时。在最近的文献[23,58]中，超过100个层是流行的设计，甚至在像ImageNet这样的大规模数据集上训练了超过1000个层[30,72]。分形网络[37]和深度融合网络[63]提供了一种实现无残差超深网络训练的捷径的替代方法。作为对更深层次的补充，宽度在resnet和基于起始的网络中也很重要[70,66,71]。DenseNets[29]超越了ResNets中的一阶跳跃连接，提出了一种密集连接的网络架构和连接方案，以实现特征的重用和挖掘;DPNs[7]提出了剩余和密集连接交替结合的方式，以实现更有效的特征挖掘和重用。DLA networks[69]进一步发展了迭代和层次聚合模式，获得了很好的性能。跳连接和密集连接都使顺序结构适应于有向和无环图(DAG)结构的网络，这在较早的递归神经网络(RNN)[3,18]和ConvNets[67]中被探索过。

大部分工作集中在提高空间编码和利用空间维数减少。压缩和激发模块[27]是最近提出的一种简单而有效的方法，专注于信道编码。沙漏网络[48]提出了沙漏模块，包括子抽样和上抽样，以享受自底向上/自顶向下的重复特性探索。

我们的AOGNet是由直观的简单但有原则的语法创建的。它与初始模块[58]、深度融合网[63]和国防后侦局[69]具有相同的精神。

语法。[75]提出了图像语法的一般框架。目标检测语法是目标检测的主要方法[10,74,55,41,39,40]，最近已经与DNNs相结合[60,61,6]。概率程序归纳[57,35,36]已成功地应用于许多场合，但在诸如大规模图像分类和目标检测等困难的视觉理解任务中并没有表现出良好的性能。最近，递归皮层网络[14]被提出在学习中具有更好的数据效率，它采用了AND-OR语法框架[75]，显示了文法在开发通用AI系统中的巨大潜力。

我们的贡献。本文在深度表示学习领域做出了两大贡献：

提出了用于深度学习的复合语法结构，并提出了深度和或语法网络(AOGNets)。AOGNets以分层和组合的方式促进了特性探索和特性重用。AOGNets统一了最先进的DNNs(如GoogLeNets、ResNets、ResNeXts、DenseNets、DPN和DLA)开发的最佳实践。据我们所知，这是设计语法引导的网络生成器的第一项工作。
它在CIFAR和ImageNet-1K分类基准测试和MS-COCO目标检测和分割基准测试中取得了比许多先进网络更好的性能。它也获得了更好的模型可解释性，显示了更大的潜力对抗性防御。

3 AOGNets

在本节中，我们首先介绍构建我们的AOGNets结构的细节。然后，为AOGNet中的节点定义节点操作函数。我们还提出了一种简化整个结构的方法，该方法删除了语法上对称的节点。

3.1 AOGNet的结构

公式较多，见原文。

算法1:构造一个AOG积木块

3.2 AOGNet中的节点操作

公式较多，见原文。

3.3 简化AOG构建块

短语结构语法是一种句法冗余的语法，它通过二元组合规则揭示了所有可能的构象。在表示学习中，我们也希望增加网络中不同阶段的特征维数以获得更好的表示能力，但尽量不显著增加参数总数。为了平衡我们的AOG构建块的结构复杂性和特性维度，我们建议通过删除一些语法上冗余的节点来简化一个AOG构建块的结构。如图4所示，修剪算法很简单:给定一个完整结构的AOG构建块，我们从一个空的简化块开始。我们首先将根或节点添加到简化的块中。然后，我们遵循整个结构块中节点的BFS顺序。对于遇到的每个or节点，我们只保留简化块中当前子节点集合中没有语法上对称的左-右对应项的子节点。对于遇到的节点和终端节点，我们将它们添加到简化块中。修剪算法可以集成到算法1中。例如，考虑图4左边的根or节点的四个子节点，第四个子节点被删除，因为它与第二个对称。

图4。说明通过修剪语法上对称的or节点的子节点来简化AOG构建块。左:一个完整结构的AOG积木块，由10个终端节点、10个和节点、10个或节点组成。要修剪的节点和边用黄色标出。右:简化的AOG积木块，由8个终端节点、5个和节点、8个或节点组成。(彩色观看效果最佳)

4 实验

我们的AOGNet在CIFAR-10和CIFAR- 100[32]、ImageNet-1K[52]分类基准和MS-COCO目标检测和分割基准[43]中进行了测试。

4.1 实现设置和详细信息

公式较多，见原文。

4.2 ImageNet 1K中的图像分类

ILSVRC 2012分类数据集[52]由大约120万张用于训练的图像和50000张用于验证的图像组成，来自1000个类。我们采用与[23,29]相同的数据增强方案(随机裁剪和水平翻转)来训练图像，并在测试时使用尺寸为224 224的单次裁剪。根据通用协议，我们评估验证集上的top-1和top-5分类错误率。

模型参数。我们测试了三种具有不同模型复杂性的AOGNets。相比之下，我们使用模型尺寸作为AOGNet的名称标签(例如，AOGNet- 12M表示AOGNet有1200万个参数左右)。茎(见图3)使用三个Conv3x3-BN层(第一层是stride 2)，然后是一个2倍最大的pooling层，使用stride 2。这三个AOGNets都使用四个阶段。在一个阶段中，我们使用相同的AOG构建块，而不同的阶段可能使用不同的块。然后Nn指定一个阶段，其中N是原始大小(算法1)，N是块的数量。过滤器通道由一个5元组定义，用于指定4个阶段的输入和输出维度。三种AOGNet的详细规格为:AOGNet- 12m使用(22、41、43、21)的分级，带有过滤通道(32,128,256、512,936);AOGNet- 40m使用(22、41、44、21)的分级，带有过滤通道(60,240、448,968、1440);AOGNet- 60M使用(22、42、45、21)的分级，带有过滤通道(64,256,512、1160、1400)。

训练设置。滤波器权值采用随机参数初始化。对于批处理标准化(BN)层，我们使用0初始化所有偏移量参数。我们使用1来初始化所有的尺度参数，除了每个T()中的最后一个BN层，在这里我们将尺度参数初始化为0，就像在[17]中所做的那样。在最后两个阶段，我们使用Dropout[33]，其下降率为0.1。我们在培训中使用8个gpu (NVIDIA V100)。批处理大小是128每个GPU(总共1024)。初始学习率为0.4，使用余弦学习率调度器[44]，权值衰减0.0004，动量0.9。我们用SGD对AOGNet进行120个epoch的训练，其中包括5个epoch的[17]后的线性热身。

结果和分析:AOGNets获得了最好的准确性和模型可解释性。表1显示了结果，图5显示了前1的错误率和训练损失。在模型尺寸比较的模型中，我们的AOGNets在top-1和top-5的准确率方面是最好的。我们的小型AOGNet-12M的表现分别比ResNets [23] (44.5M和60.2M)高出1.32%和0.72%。我们注意到，我们的AOGNets使用与ResNets相同的瓶颈操作功能，因此改进必须由AOG构建块结构做出贡献。我们的AOGNet-40M在性能上比其他所有方法都要好，其中包括ResNeXt- 101 [66]+SE [27] (48.9M)，是实际应用中最强大、应用最广泛的组合。AOGNet-40M的性能也优于第二名DPN-98 [7] (61.6M)，说明我们的AOG构建块中的DenseNet-和resnet聚合的层次化和组分集成比DPN[7]中的级联集成更有效。我们的AOGNet-60M达到了最好的效果。我们的AOGNet-60M的失败次数略高于DPN-98，部分原因是DPN使用ResNeXt操作(即group conv.)。在我们正在进行的实验中，我们正在测试使用ResNeXt节点操作的AOGNets。

表1。使用单模型和单作物测试的ImageNet-1K验证集的前1和前5的错误率(%)。

图5。ImageNet中三个AOGNets的top-1错误率和训练损失的图。(彩色和放大效果最佳)

在开发基于深度学习的人工智能系统[8]中，模型可解释性被认为是一个关键问题。我们使用网络剖析度量[4]来比较最后一个卷积层中唯一检测器(即滤波器核)的数量。在对比中，我们的AOGNet获得了最好的分数(图6)，说明了该AOG构建块在获得最佳精度性能的同时，在通过设计诱导模型可解释性方面具有很大的潜力。

图6。利用[4]网络解剖方法对ImageNet预训练网络进行模型可解释性比较。

对抗的稳健性是许多DNNs[2]所面临的另一个关键问题。我们进行了一个简单的实验来共同削减不同DNNs的开箱即用的对抗鲁棒性。表2显示了结果。在常规条件下，我们的AOGNets表现出更好的对抗能力，特别是当摄动能量控制在相对较低(即?= 0.1)。我们将在以后的工作中通过不同的攻击和对抗性的训练来研究这个问题。

表2。使用1步FGSM[16]和傻瓜工具箱[51]在白盒对敌攻击下的最高精度比较。

手机设置。我们在典型的移动设置[26]下训练一个AOGNet-4M。表3给出了比较结果。我们获得性能par的流行网络专门为移动平台，如mobilenet[26,54]和shufflenet[73]。我们的AOGNet也超过了自动搜索网络NASNet[76](它在搜索中使用了大约800个gpu)。我们注意到，我们使用了相同的AOGNet结构，因此显示了我们的AOGNets有前途的设备不可知功能。这对于在不同的平台上部署DNNs是非常重要和有用的，因为不需要额外的手工制作或搜索神经结构。如果大型模型共享完全相同的结构，这对于从大型模型中提取小型模型也有潜在的用处。

表3。移动设置下ImageNet-1K验证设置的前1和前5的错误率(%)。

4.3 COCO中的目标检测和分割

MS-COCO是[43]中广泛使用的对象检测和分割基准之一。它由80个对象类别组成。我们在COCO train2017集合中训练AOGNet，在COCO val2017集合中评估。我们报告了用于包围盒检测(APbb)和实例分割(即掩模预测(APm))的平均精度(AP)、AP50和AP75的COCO标准度量标准。我们在Mask-RCNN系统[22]上进行实验，使用最先进的实现，maskrcnn-benchmark[45]。我们使用ImageNet-1K上预训练的AOGNets作为骨架。在对目标检测和分割进行微调时，我们冻结了所有的BN参数，就像对ResNet[23]和ResNeXt[66]骨干所做的那样。我们保持所有其他方面不变。我们测试了C4和FPN设置。

结果。表4给出了比较结果。我们的AOGNets获得了比ResNet[23]和ResNeXt[66]脊柱更好的结果，模型尺寸更小，推理时间类似或稍好。实验结果表明，我们的AOGNets学习更好的特征在目标检测和分割任务的有效性。

表4。Mask-RCNN结果coco val2017使用1x训练计划。ResNets和ResNeXts的结果由maskrcnn基准报告。

4.4 在CIFAR数据集上的实验

CIFAR-10和CIFAR-100数据集[32]分别用C10和C100表示，由10个类和100个类绘制的32 32幅彩色图像组成。训练集和测试集分别包含50000张图像和10000张图像。在训练数据的准备中，我们采用了广泛使用的标准数据增强方案——随机裁剪和镜像。

在随机参数初始化条件下，用随机梯度下降(SGD)训练了300个epoch的AOGNets。前端(见图3)使用单一卷积层。初始学习率设置为0.1，分别在150和225 epoch时除以10。对于CIFAR-10，我们选择批量大小64，权重衰减0.0001，而对于CIFAR-100，我们选择批量大小128，重量衰减0.00001。动量设定为0.9。

结果和分析。我们在表5中总结了结果。通过更小的模型尺寸和更低的计算复杂度(FLOPs)，我们的AOGNets获得更好的性能比ResNets[23]和一些变体，ResNeXts[66]和DenseNets[29]一致在两个数据集。我们的小型AOGNet (0.78M)的表现已经超过ResNet [23] (10.2M)和WideResNet [70] (11.0M)。由于使用了相同的节点操作，因此改进必须来自于AOG构建块结构。与densenet相比，我们的AOGNets在C100上有了更多的改进，并且对于类似的型号尺寸使用了不到一半的延迟。延迟减少的原因是densenet在每个稠密块之后采用了向下采样，而我们的AOGNets在终端节点上进行子采样。

表5所示。两个CIFAR数据集[32]的错误率(%)。参数使用的单位是百万。DenseNet中的k为增长率。

4.5 消融研究

我们进行了一项消融研究，调查(i) RS:去除修剪后的AOG建筑块中ORnodes的对称子节点，以及(ii) LC:增加横向连接的影响。如表6所示，RS和LC这两个组件提高了性能。结果与我们的设计直觉和原则一致。RS分量降低了结构复杂性，促进了更高的特征维数，LC分量增加了侧向流动节点的有效深度。

表6所示。利用5次运行的平均错误率对我们的AOGNets进行消融研究。在前两行中，AOGNets使用完整的结构，最后两行使用修剪后的结构。相应地指定节点操作的特征维数，以保持模型大小的可比性。

5 结论与讨论

本文提出了一种语法引导的网络生成器，它可以有效地构建用于深度学习的语法结构。它提出了深度和或语法网络(AOGNets)。AOG包括一个短语结构语法和一个依赖语法。一个AOGNet由许多阶段组成，每个阶段都由许多AOG构建块组成。我们的AOG构建块利用了最好的语法模型和DNNs进行深度学习。AOGNet获得国家最先进的表现。在CIFAR-10/100[32]和ImageNet- 1K[52]中，在公平比较下，AOGNet获得了比所有先进网络更好的性能。AOGNet还利用网络剖分[4]得到了最佳模型可解释性评分。AOGNet在对抗性防御中显示出了更好的潜力。在MS-COCO[43]中，AOGNet的性能优于Mask R-CNN[22]中的ResNet和ResNeXt backbones。

讨论。希望本文能对学习语法引导的网络生成器进行进一步的探索。AOG可以很容易地扩展为k-分支分裂规则;2. 其他类型的边缘也可以很容易地在AOG中引入，比如密集的横向连接和自上而下的连接。节点操作还可以扩展以利用语法指导的转换。对于AOG结构，需要研究更好的参数初始化方法。

ZIZHU