论文笔记:DetNet:A Backbone network for Object Detection

DetNet是一种专为对象检测设计的网络结构,它在深层保持高空间分辨率,结合扩张卷积来增强定位能力。通过额外的阶段处理多尺度问题,其Fpn网络设计允许从深层获取小物体的语义信息。实验结果显示DetNet在目标检测任务中表现优秀。
摘要由CSDN通过智能技术生成

在这里插入图片描述

1.动机
  • 一些检测器通常包含了额外的 stages,处理多尺度问题
  • 较大的下采样因子会使感受野增大,空间分辨率降低,利于分类,不利于定位
  • 传统的 backbone 大多是针对做分类的

常见的backbone:
①Image Net
②AlexNet—为了减少计算量,增加有效的感受野,以32步长下采样 feature map
③VGG Net—以3*3卷积,构建更深的网络,也是32 strides
④Google Net 一 用起始块(inception block)来包含更多种特征
⑤Res Net一采用瓶颈结构设计,每个 Stage 都执行余数求和
⑥ResNext/Xeption—用群卷积层取代了传统的卷积层, 减少参数的同时提高了精度
⑦Dense Net 密集地连接卷积层,进一步减少参数,同时保持精度
⑧D RN (Dilated Residual Network )—用更少的步长来提取特征, 在语义分割上效果显著。

2.贡献点

创新
① 有 extra stages (像 FPM 和 Retinanet中),用于多尺度
② 深层仍保持高空间分辨率,利于定位

优点
既有高分辨率的 feature maps,又有大的感受野
利用了一个低复杂度的扩张形瓶颈结构

3.方案

在这里插入图片描述

F.B是传统分类主干网络,每次以stride2对feature map 进行下采样;F.A是Fpn网络,在原本下采样基础上进行上采样:它用深层检测大目标,浅层检测小目标,但是浅层含有的语意信息少,需要从深层上采样获得小物体的语意信息,但是,如果小目标的信息在下采样过程中就丢失了,那么上采样也采样不到

问题
① stages 数量不同
② 大物体观度低
③ 小物体不可见

4.DetNet Framework

在这里插入图片描述
①stage1-stage4和ResNet50都一样, stages 5开始不一样,P6 被用来检测大目标,stage 4之后仍保持16*下采样的空间分辨率
② 每个 stage 一开始先采用具有从1×1卷积投影的扩张型瓶颈
③ 将 dilated bottleneck 作为基本的网络板块,以有效地扩大感受野(dilated 卷积耗时-在 stage5和stage6中保持相同的channels)

5.实验方法和结果

在这里插入图片描述
在这里插入图片描述

### 回答1: Swin Transformer 目标检测是一种基于 Swin Transformer 模型的目标检测算法。它采用了一种新的 Transformer 架构,能够在保持高精度的同时,大幅提高计算效率。该算法在 COCO 数据集上取得了 SOTA 的结果。 ### 回答2: Swin Transformer是一种基于Transformer架构的新型神经网络模型,在目标检测任务中表现出色。它的设计思路主要是通过分解高分辨率特征图的位置编码,将计算复杂度从O(N^2)降低到O(N),极大地提高了模型的计算效率。 Swin Transformer在目标检测任务上的应用主要通过两个关键方面来进行:Swin Transformer Backbone和Swin Transformer FPN。 Swin Transformer Backbone是指将Swin Transformer应用于骨干网络的部分。传统的目标检测模型通常使用ResNet或者EfficientNet等CNN架构作为骨干网络,而Swin Transformer通过将Transformer的自注意力机制应用于骨干网络中,使得模型可以更好地学习到不同尺度和位置的特征信息。 Swin Transformer FPN则是指利用Swin Transformer模型中的特征金字塔网络(Feature Pyramid Network)来进行目标检测。特征金字塔网络通过将不同层次的特征图进行融合,使得模型可以同时获得高级语义信息和低级细节信息,从而提升目标检测的准确性和鲁棒性。 相比于传统的目标检测模型,Swin Transformer在计算效率和准确性上都有显著的提升。它不仅在COCO数据集上取得了当前最好的单模型性能,而且在推理速度上也优于其他同等性能的模型。因此,Swin Transformer在目标检测领域具有广泛的应用前景。 ### 回答3: Swin Transformer是一种基于Transformers的对象检测模型。它是在Transformer架构上进行了改进和优化,以适用于目标检测任务。 与传统的卷积神经网络不同,Swin Transformer使用的是一种局部注意力机制,它能够在图像中进行局部区域的特征提取和交互。这种局部注意力机制能够有效地减少计算复杂度,提升模型的性能。 Swin Transformer利用了一个分层的网络结构,其中每个层级都有多个Swin Transformer块。每个Swin Transformer块由两个子层组成,分别是局部窗口注意力机制子层和跨窗口注意力机制子层。局部窗口注意力机制子层用于提取特定区域的局部特征,而跨窗口注意力机制子层用于不同区域之间的特征交互。 在训练过程中,Swin Transformer还使用了分布式权重梯度传播算法,以加快训练速度。此外,Swin Transformer还采用了数据增强技术,如随机缩放和水平翻转,以提高模型的泛化能力。 实验证明,Swin Transformer在COCO数据集上取得了很好的性能,在目标检测任务上超过了传统的卷积神经网络模型。它在准确性和效率方面表现优异,对于大规模的对象检测任务具有很高的可扩展性。 总之,Swin Transformer是一种基于Transformers的对象检测模型,通过优化的局部注意力机制和分布式训练算法,能够在目标检测任务中取得出色的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值