详解resnet解决梯度消失问题

最新推荐文章于 2025-04-06 20:08:45 发布

纸上得来终觉浅～

最新推荐文章于 2025-04-06 20:08:45 发布

阅读量9.8k

点赞数 11

分类专栏：深度学习文章标签： resnet

本文链接：https://blog.csdn.net/qq_32172681/article/details/100177636

版权

深度学习专栏收录该内容

79 篇文章

订阅专栏

1、ResNet 起源

ResNet 的出发点是，在一个浅层的网络模型上进行改造，将新的模型与原来的浅层模型相比较，改造后的模型至少不应该比原来的模型表现要差，极端情况下，新加层的结果为 0，这样它就等同于原来的模型了。

2、瓶颈结构

对于每个残差函数 f，使用3个层叠层，分别为1×1、3×3和1×1卷积，其中1×1层负责减小/增加尺寸，3×3层为瓶颈层。

假设现在有一个由3个卷积层堆叠的卷积栈，将这个栈的输入/输出之间的原始映射称为 underlying mapping，ResNet 用 residual mapping 去替换underlying mapping。而将 underlying mapping 标记为 H(x) ，将经过堆叠的非线性层产生的residual mapping 标记为 F(x)=H(x)−x ，最原始的映射就被强制转换成 F(x)+x，这种恒等映射学习起来更容易。

3、瓶颈结构主要代码：

def bottleneck(inputs,
               depth,
               depth_bottleneck,
               stride,
               rate=1,
               outputs_collections=None,
               scope=None):
  with variable_scope.variable_scope(scope, 'bottleneck_v1', [inputs]) as sc:
    depth_in = utils.last_dimension(inputs.get_shape(), min_rank=4)
    if depth == depth_in:
      shortcut = resnet_utils.subsample(inputs, stride, 'shortcut')
    else:
      shortcut = layers.conv2d(
          inputs,
          depth, [1, 1],
          stride=stride,
          activation_fn=None,
          scope='shortcut')

    residual = layers.conv2d(
        inputs, depth_bottleneck, [1, 1], stride=1, scope='conv1')
    residual = resnet_utils.conv2d_same(
        residual, depth_bottleneck, 3, stride, rate=rate, scope='conv2')
    residual = layers.conv2d(
        residual, depth, [1, 1], stride=1, activation_fn=None, scope='conv3')

    output = nn_ops.relu(shortcut + residual)

    return utils.collect_named_outputs(outputs_collections, sc.name, output)

4、反向传播解决梯度消失问题