深度学习笔记017:残差网络ResNet(Resnet是并连操作而非串联操作)

这篇博客探讨了深度神经网络中梯度消失的问题,特别是在ResNet块的上下文中。随着网络层数增加,底层参数的梯度可能会变得非常小,导致训练缓慢。ResNet通过引入残差学习,将乘除操作改为加减,从而解决了这个问题,确保靠近输入层的权重也能有效更新。此外,还讨论了在网络中添加新层的影响,以及ResNet如何通过其结构增强网络的训练稳定性。
摘要由CSDN通过智能技术生成

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
两 种 实 现 : 右 侧 如 果 加 不 回 去 可 能 需 要 通 道 变 换 两种实现:右侧如果加不回去可能需要通道变换
在这里插入图片描述
在这里插入图片描述
两种ResNet块;
在这里插入图片描述
在这里插入图片描述

ResNet的梯度计算

y = f ( x ) , 省 略 L o s s , 假 设 y 里 包 含 了 L o s s w 是 靠 近 底 层 的 一 个 参 数 , w = w − 学 习 率 ∗ ∂ y ∂ w 所 以 不 希 望 ∂ y ∂ w 很 小 , 特 别 小 的 时 候 , 数 值 稳 定 性 会 发 生 问 题 , y=f(x),省略Loss,假设y里包含了Loss\\w是靠近底层的一个参数,w=w-学习率*\frac{\partial y}{\partial w} \\所以不希望\frac{\partial y}{\partial w}很小,特别小的时候,数值稳定性会发生问题, y=f(x)Loss,yLossww=wwywy
看 看 在 网 络 上 再 加 一 层 会 怎 样 , 比 如 在 原 有 的 十 个 卷 积 层 上 再 加 十 层 ? : y ∗ = g ( f ( x ) ) ∂ y ∗ ∂ w = ∂ g ( y ) ∂ y ∗ ∂ y ∂ w 假 设 加 的 g 层 的 拟 合 能 力 比 较 强 的 话 , ∂ g ( y ) ∂ y 会 是 一 个 比 较 小 的 数 值 这 样 越 深 的 话 , 越 是 底 层 就 越 会 出 现 问 题 看看在网络上再加一层会怎样,比如在原有的十个卷积层上再加十层?:y^*=g(f(x))\\ \frac{\partial y^*}{\partial w}=\frac{\partial g(y)}{\partial y}*\frac{\partial y}{\partial w}\\ 假设加的g层的拟合能力比较强的话,\frac{\partial g(y)}{\partial y}会是一个比较小的数值\\ 这样越深的话,越是底层就越会出现问题 ,y=g(f(x))wy=yg(y)wygyg(y)

R e s N e t 的 解 决 方 式 : y ∗ ∗ = f ( x ) + g ( f ( x ) ) = y + y ∗ , 则 ∂ y ∗ ∗ ∂ w = ∂ y ∂ w + ∂ y ∗ ∂ w , 这 样 即 使 ∂ y ∗ ∂ w 很 小 页 无 所 谓 , 直 接 当 作 g 不 存 在 这 样 将 乘 除 变 为 加 减 , 使 得 靠 近 数 据 层 的 w 也 能 较 快 的 更 新 ResNet的解决方式:\\ y^{**}=f(x)+g(f(x))=y+y^*,则\frac{\partial y^{**}}{\partial w}=\frac{\partial y}{\partial w}+\frac{\partial y^*}{\partial w},\\ 这样即使\frac{\partial y^*}{\partial w}很小页无所谓,直接当作g不存在\\ 这样将乘除变为加减,使得靠近数据层的w也能较快的更新 ResNety=f(x)+g(f(x))=y+y,wy=wy+wy,使wyg使w

相关扩展知识

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值