上采样层什么意思_非‘玩具’的隐式多尺度深度均衡模型

本文介绍了一种新型的隐式深度网络——多尺度深度均衡模型(MDEQ),该模型能够在不需要显式层堆叠的情况下,对多尺度结构进行有效建模。MDEQ通过并行处理不同特征尺度,解决了传统隐式深度网络的层次和阶段缺失问题,实现了与显式深层网络相媲美的精度,同时保持了O(1)的内存占用量。在ImageNet分类和Cityscapes语义分割等大规模任务上,MDEQ展现出与最新显式模型相当的性能,尤其是在内存效率方面更具优势。
摘要由CSDN通过智能技术生成

在计算机视觉和音频处理等领域,最先进的模式识别系统几乎普遍基于多层层次特征提取器。这些模型是分阶段构建的:输入通过一系列连续的块进行处理,每个块以不同的分辨率操作。这个体系结构明确地表达了层次结构,用上采样层和下采样层在不同规模的连续块之间转换。这种设计的一个重要动机是在这些领域中突出的多尺度结构和极高的信号维数。例如,一个典型的图像包含数百万个像素,这些像素必须由模型进行一致的处理。

诸如神经ODE(NODEs)和深均衡模型(DEQ)等隐式深层网络的最新进展例证了可微分建模的替代方法。这些结构用模型必须满足的解析条件替换显式的、深度叠放的层,并且能够在恒定的内存占用范围内模拟具有“无限”深度的模型。隐式建模的一个显著成就是其成功应用于自然语言处理中的大规模序列。

但隐式深度学习与一般模式识别任务相关吗?其中一个明显的挑战是隐性网络去掉了灵活的“层次”和“阶段”。因此,尚不清楚他们是否可以适当地对多尺度结构进行建模,而多尺度结构在某些领域中对高分辨能力是至关重要的。这是激发我们工作的挑战,放弃层次和阶段的深层序列的隐式模型(implicit models),能否在具有丰富多尺度结构特征的领域(如计算机视觉)获得具有竞争力的精度?

为了应对这一挑战,本文引入了一类新的隐式网络:多尺度深度均衡模型(MDEQ)。它受到 DEQs的启发,DEQs在序列建模中获得了很高的准确性。我们充分扩展了DEQ的构造,以引入多种信号分辨率的同时均衡建模。MDEQ通过在所有特征尺度上直接优化稳定表示,同时解决了多个分辨率流的平衡。与标准的显式深层网络不同,MDEQ不会连续处理不同的分辨率,而较高的分辨率会流入较低的分辨率,反之亦然。相反,不同的特征尺度在一个单一的“浅”模型中被并行处理,并驱动到平衡点。

这种设计带来两个主要优点。首先,像基本的DEQ一样,我们的模型不需要通过显式层堆栈进行反向传播,并且在训练过程中具有O(1)内存占用量。这一点特别重要,因为模式识别系统会占用大量内存。其次,MDEQ修正了DEQ的一个缺点,在平衡状态下暴露了多个特征尺度,从而为辅助损失和复合训练程序提供自然的接口,如预训练(例如,在ImageNet上)和微调(例如,在分割或检测任务上)。多尺度建模使单个MDEQ能够同时训练在不同尺度上定义的多个损失,其平衡特征可以作为各种任务的“头”。

我们通过对大规模图像分类和语义分割数据集进行广泛的实验来证明MDEQ的有效性。值得注意的是,这种浅层隐式模型的准确度水平可与最新的深层显式模型相提并论。在ImageNet分类中,MDEQ在参数计数相似情况下优于基准ResNet(例如ResNet-101),达到了77.5%的top-1精度。在Cityscapes语义分割上,用于ImageNet实验的MDEQs与最近的显式模型的性能相当,同时消耗的内存也少得多。我们最大的MDEQ在Cityscapes验证集上超过了80%mIoU,胜过强大的卷积网络,并且非常接近最优效果。到目前为止,这是迄今为止隐式深度学习的最大规模应用,对于直到最近才主要应用于“玩具”领域的一类模型而言,这是一个了不起的结果。

1.1  隐式深度学习

几乎所有现代深度学习方法都使用显式模型,该模型提供用于正向传播的显式计算图。反向传播在同一图形中按相反顺序进行。这种方法是深度学习流行的框架的核心,并且与“架构”的概念相关联。相反,隐式模型没有规定的计算图。他们假定模型必须满足一个特定的标准(例如,ODE流的端点,或方程的根)。重要的是,驱动模型满足这一标准的算法并没有规定。因此,隐式模型可以在其前向传播中利用黑匣子解算器,并享受独立于前向传递轨迹的后向解析传播。

隐状态的隐式建模已经被深度学习社区探索了几十年。Pineda和Almeida研究了训练递归动态的隐式微分技术,也被称为递归反向传播(RBP)。网络设计的隐式方法最近引起了新的兴趣。例如,Neural ODE (NODEs)使用隐式ODE求解器对递归残差块进行建模,相当于采用无穷小步骤的连续ResNet。深度均衡模型(DEQ)使用黑盒寻根方法求解序列模型的不动点,等效于找到无限层网络的极限状态。隐式建模的其他实例包括优化层,可微物理引擎,逻辑结构学习和连续生成模型。

我们的工作将深度均衡方法引入以丰富的多尺度结构特征的信号域中。我们开发了第一个单层隐式深度模型,该模型能够缩放到现实的视觉任务(例如,百万像素级图像),并在这些情况下获得竞争性结果。相比之下,由于数值的不稳定性,基于ODE的模型到目前为止仅应用于相对低维的信号。例如,Chen等将28×28 MNIST图像降采样为7×7,然后再将其提供给神经ODE。更广泛地讲,我们的工作可以看作是隐式模型的新视角,其中模型定义和优化多个数据流的同时标准,这些数据流可以有不同的维度。到目前为止,虽然DEQs和NODEs是在单个特征流上定义的,但是单个MDEQ可以针对不同的任务联合优化特征,比如图像分割和分类。

1.2  计算机视觉中的多尺度建模

计算机视觉是层次多尺度建模的典型应用领域。深度卷积网络已成为该领域的主导。计算机视觉问题可以从所需输出粒度的角度来看待:从低分辨率(如整个图像的标签)到高分辨率输出(如语义分割中为每个像素分配标签)。这些问题的最先进模型被明确构造为以不同分辨率运行的处理的连续阶段。例如,一个ResNet通常包括4-6个连续的阶段,每一个操作的分辨率是前一个的一半。DenseNet使用不同的连接模式在层之间传递信息,但共享总体结构:一系列阶段。其他设计会逐渐降低特征分辨率,然后逐步提高它。还可以按照明确编排的顺序重复进行下采样和上采样。

多尺度建模一直是计算机视觉的中心主题。拉普拉斯金字塔是多尺度建模的一个有影响的早期例子。Farabet等人将多尺度处理与卷积网络相结合进行场景解析。并且已经在许多随后的架构中明确地解决了。

我们的工作为隐式深度网络带来了多尺度建模。MDEQ本质上只有一个阶段,其中不同的分辨率并存。输入以最高分辨率注入,然后隐式传播到其他标度,这些标度由(黑匣子)求解器同时进行优化,以驱动它们满足联合平衡条件。就像DEQs一样,MDEQ能够代表“无限”的深度网络,而只需要恒定的内存成本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值