【论文阅读】MIL-FCN:全卷积多类多实例学习
多实例学习(MIL)可以通过削弱所需的监督程度来减少对语义分割等任务中昂贵的注释的需求
提出了一种新的基于全卷积网络的多类语义分割学习的MIL公式
试图从弱图像级标签中学习语义分割模型
-
端到端训练,以共同优化表示
-
消除像素图像标签分配的歧义
通过PASCAL VOC分割挑战的初步实验来评估这种方法
一、介绍
卷积网络在许多计算机视觉任务上取得了最先进的性能,但需要昂贵的监督
卷积神经网络同样可以处理具有结构化输出的局部任务
全卷积网络(FCN)的多实例学习(MIL)的新框架
表示对象存在或不存在的弱图像级标签中学习像素级语义分割
该工作的核心是通过多实例学习驱动卷积神经网络表示和像素分类器的联合学习
为了从图像标签中学习分割模型,我们将每张图像转换为一个像素级的实例
MIL可以减少对边界框注释的需求
相应的工作:
- Oquab等人(2014)通过推断潜在目标位置来改进图像分类,但没有评估定位
- Hoffman等人(2014)通过MIL微调进行训练,但依赖于边界盒监督和表示学习建议
大部分工作学习边界信息
贡献:
- 全卷积网络中联合MIL和端到端表示学习
- 受二进制MIL场景启发的多类像素级损失
- 像素级的一致性线索有助于消除物体存在的歧义
二、MIL-FCN
全卷积网络(FCN)是一种为空间预测问题而设计的模型
FCN可以接受任何尺寸的输入,并产生相应尺寸的输出。
弱监督MIL学习,FCN允许有效地选择训练实例
下面的MIL的演示图
FCN预测所有像素的输出映射,并对所有像素有相应的损失映射。这个损失图可以被屏蔽、重新加权或以其他方式操纵
VGG16层网络,并将其转换为完全卷积形式
该网络从预训练的ILSVRC分类器权重进行微调,即预训练以预测图像级标签
语义分割需要一个背景类,而分类任务没有;我们简单地将背景分类器的权重初始化为零。
三、多类MIL loss
多类MIL损失定义为在最大预测下计算的多类逻辑损失
这种选择是由FCN生成的输出图启用的
图像和背景中存在的类的粗略热图中识别最大评分像素。FCN只在这些粗点上计算损失,并通过网络反向传播
忽略所有非最大得分点的损失是避免FCN学习偏向背景的关键
同时训练利用多标签图像通过类间混淆,以帮助提高类内像素精度
还原回原始尺寸大小:
- MIL-FCN在粗预测的每个点上取顶级预测
- 并对图像分辨率进行双线性插值
- 得到逐像素分割
四、实验
所有的结果都是关于PASCAL VOC分割挑战
每个类被定义为在ground truth分割掩码的交集中像素的百分比,以及在它们的联合中像素数量的预测掩码
具体操作:
- MIL- fcn模型从16层VGG ILSVRC14分类器初始化
- MIL损失进行微调
- 传递PASCAL和ILSVRC共同的类的输出层参数改善结果
实验结果: