多尺度R-CNN(2): Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural

    CNN高层特征具有丰富的语义信息,低层特征具有较高空间分辨率,研究如何融合不同层之间的特征,是物体检测领域热门的方向。近期很多工作通过融合多层来提升检测和分割的性能,按照融合与预测的先后顺序,分类为早融合(Early fusion)和晚融合(Late fusion)。
    早融合: 先融合多层的特征,然后在融合后的特征上训练预测器。这类方法也被称为skip connection。
这里面的代表是IONHyperNet。本文主要介绍 Inside-Outside Net(ION)的思想细节。

转载请注明文章出处: 多尺度R-CNN论文笔记(2): Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks http://blog.csdn.net/solomon1558/article/details/72824370

1. Abstract

    上下文信息和多尺度表征(Contextual and multi-scale representations)对于提高视觉识别任务非常关键。Inside-Outside Net(ION)利用RoI内部(Inside)和外部(Outside)的信息改进检测性能。使用空间递归数据网络(spatial recurrent neural networks)集成RoI外部的contextual信息;使用skip-connection提取多尺度特征。
     ION将PASCAL VOC 2012 object detection的mAP从 73.9% 提升到 76.4% mAP。在MS COCO dataset上,ION将mAP从 19.7% 提升到33.1%。这篇文章是Cornell大学PhD Sean Bell 2015年的工作,论文发表在CVPR2016上。该算法获得了 MS COCO 2015 Detection 的 Best Student Entry 和 3rd place in total,同年比赛第一由何恺明的ResNet赢得。

2. Methods

    ION是在Fast R-CNN检测模型的基础上改进的,主要有两个创新点:(1) Inside:通过skip pooling提取RoI在不同尺度不同抽象层次的特征;(2) Outside : 通过spatial recurrent neural network(IRNN)提取RoI外部的contextual信息。
    这个工作认为,理解一幅图片,RoI inside 的 image/object information 和 outside 的 global contextual information 同样重要,都不可以丢失。所以作者提出了同时利用这两方面的信息——构造了 Inside-Outside Net(ION)。
    如图-1所示,ION特征/Context融合的阶段是在proposal提取过程之后Fast R-CNN阶段

图-1 Inside-Outside Net(ION)
    其中,inside 部分它们的思想依然是 multi-scale representation,用 conv3, conv4, conv5 等层级 stacked 抽取 features,因为这样对于 small objects 就不会丢失 lower-level layer 的 high resolution information。另一方面,它们在 outside 部分的工作则更 special 一点。它们使用的是 multi-dimensional IRNN,其中 multi-dimensional 的意思是,我们常见的 RNN 最多就是 bi-directional,双向的;但是在一幅平面图里,我们有横纵两个大方向,则一共有4个小方向;而 IRNN 则是用 identity matrix 进行初始化的基于 ReLU activation 的 RNN 的别称。
图-2 Four-directional IRNN architecture
(skip pooling:对proposals在多层特征上做ROI pooling,L2归一化后拼接起来,然后再利用 1x1Conv layer将feature maps resize到512x7x7的大小。
context features with IRNNs:对于一个feature maps,有四个独立的RNN对其进行上下左右四个方向的移动。

总结:

    (1) paper 使用了multi-scale 进行object detection,在浅层Conv层对其feature maps进行roi-pooling, 增强了对small object的detect能力。
    (2)使用了RNN对RoI周围的context的信息建模,增强feature信息,促进后续的分类和回归性能。

Reference

程序媛的日常. girlswhocode. 干货 | MSCOCO 2015 Detection 前三名

MSFT-YOLO是基于Transformer模型改进的Yolov5用于检测SE(电子元器件)缺陷的方法。 Transformer是一种先进的神经网络架构,主要用于自然语言处理任务,但在计算机视觉领域也得到了广泛应用。Yolov5则是一种经典的目标检测算法,通过将图像分成多个网格单元并预测每个单元中的物体,实现了实时目标检测。 在MSFT-YOLO中,我们将Transformer应用于Yolov5的特征提取阶段,以提高对SE缺陷的检测能力。传统的Yolov5使用的是卷积神经网络作为特征提取器,但这种方法在处理复杂的缺陷图像时可能会存在一定的局限性。 通过引入Transformer,我们可以将图像中的每个像素看作是一组序列数据,并利用Transformer的自注意力机制来捕捉不同位置之间的依赖关系。这种方式可以提取出更具语义信息的特征表示,从而有效地检测SE缺陷。 在训练过程中,我们使用大量带有标注的SE缺陷图像来优化网络参数。通过进行端到端的训练,我们可以不断调整网络权重以提高检测精度。此外,我们还可以使用数据增强技术来扩增数据集,从而提升模型的鲁棒性和泛化能力。 实验结果表明,MSFT-YOLO相较于传统的Yolov5在SE缺陷检测方面取得了更好的性能。它能够识别出更多的缺陷类型,同时还具备较低的误检率。这使得它在工业制造等领域中有着广泛的应用前景,能够提高产品质量和生产效率。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值