【计算机视觉】目标检测主干网络(backbone)和颈部结构(neck)目录

感谢香港中文大学多媒体实验室(mmlab)以及所有涉及的作者、科研人员、开源社区其他贡献者的工作。

引言

计算机视觉特别是目标检测领域,网络架构通常被分为几个部分来处理不同的任务和功能。主干网络(backbone)和颈部(neck)是两个核心组件。
主干网络(Backbone)
主干网络是目标检测架构中的基础部分,主要用途是从输入的图像中提取特征。这些网络通常是经过预训练的深度卷积神经网络,如VGG、ResNet等,它们在大规模图像数据集(如ImageNet)上进行训练,能够捕捉到从基础到复杂的图像特征。主干网络的输出是一组多尺度的特征图,这些特征图包含了图像中的关键视觉信息,是进行更高级别处理的基础。
颈部(Neck)
颈部是连接主干网络和检测头(head)的中间部分,它的主要用途是进一步加工和优化主干网络提取的特征。颈部的设计影响着特征的融合和传递方式,从而对检测性能有重要影响。例如,特征金字塔网络(FPN)是一种常见的颈部结构,它通过上采样和横向连接,有效地将不同尺度的特征图融合,增强了模型对于不同大小目标的检测能力。颈部可以通过多种方式增强特征,如加入注意力机制、使用内容感知的上采样方法等。
结构模块化的必要性和优点:
首先是代码结构灵活,性能对比和代码管理比较方便。然后是一些正规的描述:
专业化处理:将网络分为主干、颈部和头部允许每个部分专注于不同的任务,如特征提取、特征融合和决策制定(如分类和定位)。这种模块化的设计使得网络更加灵活,易于调整和优化。
效率与效果的平衡:通过精心设计颈部和主干网络,可以在不牺牲性能的前提下,有效控制计算资源的使用。例如,轻量级的主干网络配合高效的颈部可以用于实时应用。
技术融合:分类使得可以将不同的技术(如CNN和Transformer)组合使用。颈部结构可以集成新的技术进展,如Transformer的自注意力机制,以改进特征的处理。
针对性优化:通过独立优化网络的不同部分,研究人员可以根据特定任务的需求调整网络架构,例如通过颈部处理来增强小目标检测的能力,或者优化特征流以处理特定类型的图像噪声。

backbone的发展历程

HRNet

2015-2017年:深度卷积网络的发展和扩展
VGG (ICLR’2015): VGG网络以其简单而有效的架构著称,主要特点是使用多个连续的3x3卷积层来提取特征,这样做可以在保持感受野的同时,增加网络的深度,提高性能。
ResNet (CVPR’2016): 残差网络(ResNet)通过引入“残差块”,解决了深层网络训练中的退化问题。这种设计允许网络学习到输入与输出之间的残差,有效地实现了网络的深层化。
ResNeXt (CVPR’2017): 基于ResNet的改进,ResNeXt引入了分组卷积思想,即将一个卷积层分成多个路径处理,提高了模型的多样性和效率。

2018-2019年:轻量化设计与高效网络
MobileNetV2 (CVPR’2018): 专为移动和嵌入式设备设计,MobileNetV2通过反向残差结构和线性瓶颈,实现了轻量级而高效的性能。
HRNet (CVPR’2019): 高分辨率网络(HRNet)维持高分辨率通过整个网络,可以同时学习到高、中、低层次的特征,适合于精细的视觉任务。
Generalized Attention (ICCV’2019): 引入了一个通用的注意力机制,可以自适应地从数据中学习到重要的特征区域,提升模型的关注能力。
GCNet (ICCVW’2019): 将全局上下文信息集成到网络中,改进了注意力机制,特别适用于需要全局理解的场景。
2020-2023年:Transformer的引入与网络结构的多样化
Res2Net (TPAMI’2020): 在每一个残差块内部采用了多尺度的特征表示策略,增强了特征的多样性和适应性。
RegNet (CVPR’2020): 提出了一种网络设计的新范式,通过定量分析确定网络的关键设计选择,生成了一系列具有不同配置的网络模型。
ResNeSt (ArXiv’2020): 利用分割注意力机制,增强了特征的表达能力,尤其在视觉任务中表现出色。
PVT (ICCV’2021): 金字塔视觉变换器,将Transformer引入到计算机视觉任务中,通过金字塔结构处理不同尺度的信息。
Swin (CVPR’2021): Swin Transformer是一种基于Transformer的视觉模型,通过使用移动窗口的方法,提升了处理效率和模型的可扩展性。
PVTv2 (ArXiv’2021): 是PVT的改进版本,提升了模型的效率和性能。
EfficientNet (ArXiv’2021): 通过复合缩放方法均衡网络的宽度、深度和分辨率,实现了高效的性能优化。
ResNet strikes back (ArXiv’2021), EfficientNet (ArXiv’2021): 分别是对传统ResNet和网络效率的进一步优化和ConvNeXt (CVPR’2022): 结合了CNN和Transformer的优点,优化了传统卷积网络的结构,提升了性能和效率。
ConvNeXtv2 (ArXiv’2023): 是ConvNeXt的进一步改进,通过细微的架构调整和训练策略优化,实现了更高的效率和更好的性能。

backbone list

VGG (ICLR’2015)
ResNet (CVPR’2016)
ResNeXt (CVPR’2017)
MobileNetV2 (CVPR’2018)
HRNet (CVPR’2019)
Generalized Attention (ICCV’2019)
GCNet (ICCVW’2019)
Res2Net (TPAMI’2020)
RegNet (CVPR’2020)
ResNeSt (ArXiv’2020)
PVT (ICCV’2021)
Swin (CVPR’2021)
PVTv2 (ArXiv’2021)
ResNet strikes back (ArXiv’2021)
EfficientNet (ArXiv’2021)
ConvNeXt (CVPR’2022)
ConvNeXtv2 (ArXiv’2023)

necks发展历程

这些颈部网络的设计都是为了在保证效率的同时,最大化利用深层特征,改善目标检测的准确率和鲁棒性。
PAFPN

2018年
PAFPN (CVPR’2018)
: 金字塔特征自适应网络(PAFPN)改进了特征金字塔网络(FPN)的结构,通过引入自适应的特征融合方式,更有效地利用了多尺度的信息,提高了小目标的检测精度。
2019年
NAS-FPN (CVPR’2019)
: 使用神经架构搜索(NAS)来自动设计特征金字塔网络,找到最优的多尺度特征融合方式,提高了检测性能。
CARAFE (ICCV’2019): 内容感知的重新特征增强模块,可以自动学习到上采样的模式,有效地改进特征图的分辨率和细节,适用于精细化的图像分割和检测任务。
2020年
FPG (ArXiv’2020)
: 全面金字塔网络(FPG)通过创新的连接方式和融合策略,在保持计算效率的同时,有效地整合不同层级的特征,提高了多尺度目标的检测能力。
GRoIE (ICPR’2020): 区域感知的全局上下文模块,通过整合全局上下文信息到局部区域,增强了对目标的识别能力,特别是在复杂背景下。
2021年
DyHead (CVPR’2021)
: 动态头部网络(DyHead)集成了多种注意力机制,动态地调整特征处理和信息流,适应不同的任务需求,提高了模型的灵活性和性能。

neck list

PAFPN (CVPR’2018)
NAS-FPN (CVPR’2019)
CARAFE (ICCV’2019)
FPG (ArXiv’2020)
GRoIE (ICPR’2020)
DyHead (CVPR’2021

  • 10
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值