在卷积神经网络中,感受野的大小会影响到模型能够捕捉到的特征的尺度,从而影响模型的性能。因此我们在设计网络时,需要合理地控制感受野的大小。
那么问题来了:怎样才能合理控制?
到目前为止,已有很多学者设计出了各种各样的多尺度模型架构供我们学习参考。这其中,图像金字塔和特征金字塔是实现多尺度的两种常用方法。更具体点,可以分为多尺度输入网络、多尺度特征融合网络、多尺度特征预测融合网络、多尺度特征和预测融合网络4种网络结构。
为了让同学们更轻松地设计网络、找创新点,今天我就从以上4种网络结构中梳理了15个CV领域必学的多尺度模型架构。希望对想发顶会的各位有所帮助。
模型原文和开源代码看文末
多尺度输入网络
1.人脸检测MTCNN
论文:Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks
使用多任务级联卷积网络进行联合人脸检测和校准
「简述:」论文提出了一种深度级联多任务框架,用于在不受约束的环境中进行人脸检测和对齐。该框架采用了一个级联结构,包含三个精心设计的深度卷积网络阶段,以粗到精的方式预测人脸和地标位置。该方法在具有挑战性的基准测试中实现了优于最新技术的人脸检测精度和人脸对齐精度,同时保持了实时性能。
多尺度特征融合网络
并行多分支结构
1.图像分割网络Deeplab V3
论文:Rethinking atrous convolution for semantic image segmentation
重新思考用于语义图像分割的空洞卷积
「简述:」本文重新审视了空洞卷积在语义图像分割中的应用。为了解决多尺度对象分割的问题,作者设计了模块,采用级联或并行的方式使用不同扩张率的空洞卷积来捕捉多尺度上下文信息。此外,作者还提出了增强之前提出的Atrous Spatial Pyramid Pooling模块的方法,该模块可以在多个尺度上探索卷积特征,并结合全局上下文的图像级别特征进一步提升性能。
2.目标检测网络trident networks
论文:Scale-aware trident networks for object detection
用于目标检测的尺度感知Trident网络
「简述:」论文研究了目标检测中尺度变化的问题,并提出了Trident网络来解决。该网络采用并行多分支架构&