深度残差网络_百面机器学习笔记 | 第九章：前向神经网络 | 06 深度残差网络

最新推荐文章于 2024-05-30 15:27:22 发布

weixin_39937312

最新推荐文章于 2024-05-30 15:27:22 发布

阅读量221

点赞数

文章标签：深度残差网络

本文链接：https://blog.csdn.net/weixin_39937312/article/details/111382222

版权

随着神经网络层数增加，优化困难和梯度消失问题愈发严重。深度残差网络（ResNet）应运而生，通过特殊网络结构设计，解决了深层模型的训练难题，允许构建包含数百甚至数千层的深度模型。ResNet的核心在于其短接机制，将输入直接连接到输出，有效缓解了梯度消失问题，促进了深度学习的发展。

摘要由CSDN通过智能技术生成

随着大数据时代的到来，数据规模日益增加，这使得我们有可能训练更大容量的模型，不断地提升模型的表示能力和精度。深度神经网络的层数决定了模型的容量，然而随着神经网络层数的加深，优化函数越来越陷入局部最优解。同时，随着网络层数的增加，梯度消失的问题更加严重，这是因为梯度在反向传播时会逐渐衰减。

为了改善这一问题，深度学习领域的研究员们在过去十几年间尝试了许多方法，包括改进训练算法、利用正则化、设计特殊的网络结构等。其中，深度残差网络（Deep Residual Network，ResNet）是一种非常有效的网络结构改进，极大地提高了可以有效训练的深度神经网络层数。如今，我们可以利用深度残差网络训练一个拥有成百上千网络层的模型。

ResNet的提出背景和核心理论是什么？

ResNet的提出背景是解决或缓解深层的神经网络训练中的梯度消失问题。假设有一个

层的深度神经网络，如果我们在上面加入一层，直观来讲得到的

层深度神经网络的效果应该至少不会比L层的差。因为我们简单地设最后一层为前一层的拷贝（用一个恒等映射即可实现），并且其他层维持原来的参数即可。然而在进行反向传播时，我们很难找到这种形式的解。实际上，通过实验发现，层数更深的神经网络反而会具有更大的训练误差。在CIFAR-10数据集上的一个结果如下图所示，56层的网络反而比20层的网络训练误差更大，这很大程度上归结于深度神经网络的梯度消失问题。