Identity Mappings in Deep Residual Networks

最新推荐文章于 2022-06-07 22:39:25 发布

铿锵的玫瑰

最新推荐文章于 2022-06-07 22:39:25 发布

阅读量498

点赞数

分类专栏：论文大全

本文链接：https://blog.csdn.net/LYKymy/article/details/97547519

版权

162 篇文章 9 订阅

订阅专栏

Abstract

深度残差网络已经成为一个极其深层的架构系列，显示出引人注目的准确性和良好的收敛行为。在本文中，我们分析了残差构建块背后的传播公式，这表明当使用标识映射作为跳过连接和后加法激活时，前向和后向信号可以直接从一个块传播到任何其他块。一系列消融实验支持这些身份映射的重要性。这促使我们提出一个新的剩余单元，这使得训练更容易，并改善了泛化。我们使用CIFAR-10上的1001层ResNet（4.62％错误）和CIFAR-100以及ImageNet上的200层ResNet报告了改进的结果。

超过100层深度的ResNets在ImageNet [3]和MS COCO [4]竞赛中展示了几项具有挑战性的识别任务的最新精度。 ResNets的中心思想是学习关于h（x1）的加性残差函数F，其中关键选择使用同一性映射h（x1）= x1。这是通过附加身份跳过连接（“快捷方式”）来实现的。
在本文中，我们通过专注于创建传播信息的“直接”路径来分析深度剩余网络 - 不仅在剩余单元内，而且在整个网络中。我们的推导揭示了如果h（xl）和f（y1）都是同一性映射，则信号可以在前向和后向传递中从一个单元直接传播到任何其他单元。我们的实验经验表明，当结构更接近上述两个条件时，一般来说训练变得更容易。
为了理解跳过连接的作用，我们分析和比较各种类型的h（xl）。我们发现在[1]中选择的身份映射h（xl）= xl在我们调查的所有变体中实现了最快的误差减少和最低训练损失，而跳过连接的缩放，门控[5,6,7]和1× 1次卷积都会导致更高的训练损失和错误。这些实验表明，保持“干净”的信息路径（由图1,2和4中的灰色箭头表示）有助于简化优化。

本文研究了深度剩余网络连接机制背后的传播公式。我们的推导意味着身份快捷方式连接和身份后添加激活对于使信息传播平稳至关重要。消融实验证明了与我们的推导一致的现象。我们还提供1000层深度网络，可以轻松培训并提高准确性。

关注

专栏目录