CV必备的15个多尺度模型分享，涵盖特征融合、多尺度预测等4种网络结构

深度之眼

已于 2024-01-04 18:24:41 修改

阅读量4k

点赞数 19

分类专栏：深度学习干货人工智能干货文章标签：深度学习人工智能 cnn 多尺度融合特征融合

于 2024-01-04 18:21:49 首次发布

本文链接：https://blog.csdn.net/weixin_42645636/article/details/135392657

版权

本文探讨了在卷积神经网络中控制感受野以优化模型性能的关键。文章介绍了多尺度输入网络、多尺度特征融合网络、多尺度特征预测融合网络和多尺度特征和预测融合网络的几种关键模型，如MTCNN、DeeplabV3、Tridentnetworks等，并总结了15个CV领域的经典模型及其应用场景，为模型设计和创新提供了参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在卷积神经网络中，感受野的大小会影响到模型能够捕捉到的特征的尺度，从而影响模型的性能。因此我们在设计网络时，需要合理地控制感受野的大小。

那么问题来了：怎样才能合理控制？

到目前为止，已有很多学者设计出了各种各样的多尺度模型架构供我们学习参考。这其中，图像金字塔和特征金字塔是实现多尺度的两种常用方法。更具体点，可以分为多尺度输入网络、多尺度特征融合网络、多尺度特征预测融合网络、多尺度特征和预测融合网络4种网络结构。

为了让同学们更轻松地设计网络、找创新点，今天我就从以上4种网络结构中梳理了15个CV领域必学的多尺度模型架构。希望对想发顶会的各位有所帮助。

模型原文和开源代码看文末

多尺度输入网络

1.人脸检测MTCNN

论文：Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

使用多任务级联卷积网络进行联合人脸检测和校准

「简述：」论文提出了一种深度级联多任务框架，用于在不受约束的环境中进行人脸检测和对齐。该框架采用了一个级联结构，包含三个精心设计的深度卷积网络阶段，以粗到精的方式预测人脸和地标位置。该方法在具有挑战性的基准测试中实现了优于最新技术的人脸检测精度和人脸对齐精度，同时保持了实时性能。

多尺度特征融合网络

并行多分支结构

1.图像分割网络Deeplab V3

论文：Rethinking atrous convolution for semantic image segmentation

重新思考用于语义图像分割的空洞卷积

「简述：」本文重新审视了空洞卷积在语义图像分割中的应用。为了解决多尺度对象分割的问题，作者设计了模块，采用级联或并行的方式使用不同扩张率的空洞卷积来捕捉多尺度上下文信息。此外，作者还提出了增强之前提出的Atrous Spatial Pyramid Pooling模块的方法，该模块可以在多个尺度上探索卷积特征，并结合全局上下文的图像级别特征进一步提升性能。