RESNET

 

一般我们会觉得网络越深,特征信息越丰富,模型效果应该越好。但是实验证明,当网络堆叠到一定深度时,会出现两个问题:

梯度消失或梯度爆炸

关于梯度消失和梯度爆炸,其实看名字理解最好:
若每一层的误差梯度小于1,反向传播时,网络越深,梯度越趋近于0
反之,若每一层的误差梯度大于1,反向传播时,网路越深,梯度越来越大

退化问题(degradation problem):在解决了梯度消失、爆炸问题后,仍然存在深层网络的效果可能比浅层网络差的现象

总结就是,当网络堆叠到一定深度时,反而会出现深层网络比浅层网络效果差的情况。
 

在ResNet网络的创新点:

  • 提出 Residual 结构(残差结构),并搭建超深的网络结构(可突破1000层)
  • 使用 Batch Normalization 加速训练(丢弃dropout)

http://t.csdn.cn/aYqDM

 

 

 conv2d这个函数的参数第一个是卷积层深度,输入图片是RGB3色的,32*32大小,所以是深度是3,16是卷积核的个数,尺寸为5*5,卷积后的矩阵尺寸大小为(32-5+2*0)/1(步长默认为1)+1=28

 每一步的一个注释

stride作用为2时可以将特征矩阵的高和宽缩减为一半,所以一般maxpool以后深度不变宽高变成了一半,

而1*1的卷积核可以生维度和降维度

跟VggNet类似,ResNet也有多个不同层的版本,而残差结构也有两种对应浅层和深层网络:

ResNet    残差结构
浅层网络    ResNet18/34    BasicBlock
深层网络    ResNet50/101/152    Bottleneck
下图中左侧残差结构称为 BasicBlock,右侧残差结构称为 Bottleneck


对于深层的 Bottleneck,1×1的卷积核起到降维和升维(特征矩阵深度)的作用,同时可以大大减少网络参数。

1.4 降维时的 short cut
观察下图的 ResNet18层网络,可以发现有些残差块的 short cut 是实线的,而有些则是虚线的。

这些虚线的 short cut 上通过1×1的卷积核进行了维度处理(特征矩阵在长宽方向降采样,深度方向调整成下一层残差结构所需要的channel即升维)。
 

 我用到的主要是resnet18,

 

下面是 ResNet 18/34 和 ResNet 50/101/152 具体的实线/虚线残差结构图:

  • ResNet 18

 

YOLOv5和YOLOv8都是优秀的目标检测模型,在人脸表情识别任务上都可以使用,主要区别如下:

  1. 架构设计不同 YOLOv5基于YOLOv3和YOLOv4改进而来,使用了一定的注意力机制。YOLOv8则在YOLOv5的基础上,引入了Transformer作为backbone,进一步增强了模型的表示能力。
  2. 精度提升 在同等计算资源下,YOLOv8的精度明显优于YOLOv5,特别是在小目标检测上有显著提升。
  3. 速度表现 YOLOv5的检测速度会更快一些,YOLOv8因引入了Transformer,速度略慢于YOLOv5。
  4. 训练时间 YOLOv8的训练时间更长,收敛较慢。

综合来看,YOLOv8的定位和识别精度会优于YOLOv5,更适合对精度要求较高的场景,如人脸表情识别。但其训练和预测速度稍慢。如果对检测速度要求较高,则建议使用YOLOv5。

所以在人脸表情识别任务上,如果追求高精度,建议先用YOLOv8检测出人脸,然后传入表情分类模型。如果需要实时处理,则可考虑使用YOLOv5加快检测速度。

因为需要实时表情处理,所以选择了YOLOv5,

03-09
ResNet(残差网络,Residual Network)是由微软研究院的Kaiming He等人于2015年提出的一种深度卷积神经网络架构,因其卓越的表现赢得了当年ImageNet竞赛的第一名。ResNet的主要创新点在于引入了“残差块”这一概念,有效地解决了深层网络中的梯度消失问题,使得训练非常深的网络成为可能。 ### 1. **核心思想** 在传统的深度神经网络中,随着层数增加,容易遇到退化问题——即更深的网络反而导致准确率下降。而ResNet通过添加跳跃连接(skip connections),直接将输入传递到后续层,形成所谓的“恒等映射”。这样一来,每一层只需要学习输入期望输出之间的差异部分,即残差函数\( F(x)=H(x)-x \),其中 \( H(x) \) 表示理想的底层映射。 ``` y = x + F(x) ``` 这种结构允许信息绕过某些层次传播,极大地促进了信号前向传导及反向误差传播过程中的稳定性。 ### 2. **基本组件 - 残差模块** 每个残差模块由若干标准卷积层组成,并附加了一个从该模块开始位置指向结束位置的身份快捷路径(identity shortcut connection)。根据宽度和滤波器尺寸的不同,存在多种类型的残差单元变体: - **简单残差块**:包含两个3×3卷积层; - **瓶颈结构**:适用于较宽网络,通常先用1×1降维再接3×3主干卷积最后恢复通道数; ![resnet_block](https://upload.wikimedia.org/wikipedia/commons/thumb/a/ac/ResNet.svg/800px-ResNet.svg.png) ### 3. **特点优点** - **易于优化**:由于避免了梯度消失现象的发生,能够轻松地构建超过百层甚至上千层的巨大网络。 - **通用性强**:已被广泛应用于计算机视觉任务之中,例如分类、检测、分割等领域。 - **高性能**:不仅在理论分析上有很好的表现,在实际测试中也多次刷新记录。 综上所述,ResNet的成功推动了整个CNN领域向着更深层次发展,并启发了许多后续改进工作如DenseNet、Xception等优秀模型的设计思路。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值