论文笔记:DLWL: Improving Detection for Lowshot classes with Weakly Labelled data

使用弱标签数据改进对Lowshot类的检测

课程学习中遇到的论文,将阅读笔记记录此处

1. 名词解释

lowshot class:
数据集中单个图像含有很少边界框注释的图像类别(<10)。
在这里插入图片描述

highshot class:
数据集中单个图像含有大量边界框注释的图像类别(>10)。
在这里插入图片描述

weakly labelled data:
只含有图像级标签的图片数据。
在这里插入图片描述

2. 研究背景

对象检测模型在诸如COCO等标准数据集上取得了巨大的成功;
但是当使用较大的数据集(比如:LVIS),遇到边界框少于十个的低密度类图像时效果欠佳;
其次,网络上含有大规模含有图像级标签的数据。

3. 研究目的

使用具有图像级标签的弱标记网络级数据集来提高对低密度类图像的检测。

4. 算法框架

改进的FRCNN(Faster R-CNN)
使用数据:
a. 使用少量全标签数据帮助更好的定位,形成边界框;
b. 使用大量弱标记图像帮助推断边界框的标签。
在这里插入图片描述

5. 具体算法流程

在这里插入图片描述
该框架同时使用弱标记和强标记示例来训练FRCNN模型。如果提供的示例具有边界框,则使用具有IoU匹配的标准绿色模块将标签分配给生成的边界框;否则将使用带有约束的线性程序来推断边界框的标签,如上图黄色区域。

线性程序

  1. 如果图像中只有一个边界框,只要选择得分最高的假设即可;
  2. 如果图像中有多个边界框,在为各个边界框分配标签需要使用约束条件来选择最优:
    a. 由FRCNN网络生成一个P*(C+1)维矩阵;
    NOTE:P表示P个分类框,C表示C个类,C+1是因为还有个背景(background)
    b.
    Y = arg ⁡ max ⁡ Y T r ( S C T Y ) Y = \arg {\max _Y}T{\rm{r}}(S_C^TY) Y=argYmaxTr(SCTY)
    s . t . Y 1 = 1 {\rm{s}}.t.Y1 = 1 s.t.Y1=1
    ∑ P y p c ≥ 1 , ∀ c ≤ C , \sum\limits_P {{y_{pc}} \ge 1,\forall c \le C,} Pypc1,cC,
    NOTE:第一个限定条件指的是上面所提到的矩阵的每一行的和为1,理论意义指的是每个边界框至少分到一个标签;
    第二个限定条件指的是这个矩阵的每一列的和大于等于1,理论意义指的是每个标签至少分给至少一个边界框。
    在这里插入图片描述

线性程序示例:

在这里插入图片描述
左下方显示的是对类别的不同假设,每种颜色表示一种类别。
左上图表示每个假设的评分,这里用红色和蓝色表示汽车和摩托车的最高评分。
标签的最终分配如右图。

6. 数据集构造:

1.COCO-train:
含有大量highshot类数据(70个)和少量lowshot类数据(10个);

2.子集:
a. COCO-N-strong:
此子集只保留来自10个Lowshot类的每个N个训练图像和所有的Highshot类图像。
b. COCO-N-weak:
COCO-train去除COCO-N-strong的图像。
删除文本

7. 实验结果:

本实验:DLWL
对比实验1:lowshot-only(仅使用含有少量边界框的图像训练)
对比实验2:omni-weak(使用全监督方法和弱标签数据)
在这里插入图片描述

最后

本篇只是对本论文的总体概述,能力有限,还有很多细节没有涉及。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值