[论文笔记]Seed,Expend and Constrain

Abstract

  1. 基于三个指导原则提出新的损失函数
    (1) 将较弱的定位线索作为种子
    (2) 基于图像中的类别信息扩展目标区域
    (3) 根据目标轮廓限制分割预测的边界
  2. 通过对比试验进一步指出所提损失函数对分割性能的影响以及今后工作的一些切入点

Introduction

文章按如下3个切入点来设计混合的损失函数:

  1. 分类网络如VGG、AlexNet可生成相对可靠的区域定位的线索cues,即种子,但不能生成精确的空间信息。文章利用seeding loss结合上述信息使得分割网络匹配到一定的定位线索
  2. 可以使用全局池化层将分割mask聚合到图像级别的标签得分中。这一层的选择对分割的质量有很大的影响。例如,最大池化倾向于低估对象的大小,而平均池化倾向于高估对象的大小。文章提出一种全局加权池化(Global Weighted Rank Pooling,GWRP)方法将种子区域扩展到合理的范围,该方法对最大池化和均值池化进行了综合,取得了较好的效果
  3. 在测试时使用全连接条件随机场(FC-CRF)进行后处理通常不足以提取物体的边界,因为一旦网络经过训练,它们甚至对错误分类的区域也会有置信度。文章提出一种新的边界约束损失函数,尽量在训练期间保持一些低级图像信息,尤其是目标的边界

Related Work

方法概述

利用图像级标签学习分割模型是个较大的挑战,已有的方法大致可分为3类

  1. 利用图模型根据图像间或图像内部的相似性去推断片段或者超像素的标签
  2. 将其归结为多示例学习问题,利用图像级的损失函数训练模型,同时保持图像内部的空间表示
  3. (利用传统的自训练方法)训练一个全监督模型,同时模型本身通过一个类似EM(期望最大值算法)的过程来获得必要的像素级标注
    文献采用的方法结合了后两种,因为同时采用了图像级和像素级的损失函数

比较

若想获得较高的分割性能,目前只能采取基于深层卷积网络的方法。文献在后文中将与以下文献进行对比

  1. MIL-FCN、MIL-ILP基于深度网络,采用多示例学习方法,主要在池化策略上有所不同,即它们如何将内部空间表示转换为每个图像的标签
  2. EM-Adapt和CCNN依赖于自训练框架,并且在如何保持每个图像标签与预测分割mask的一致性上有所区别
  3. SN_B添加了附加步骤,用于创建并结合多个对象建议

Proposed Method

所提框架的大致流程示意图
上图是我从一篇博客中保存的,欢迎博主来认领,我把出处链接加到文中,顺便可否告知一下图片出处?我找了好久都没找到…
框架损失函数设计方案

损失函数

  1. Lseed:为模型提供一定的定位提示
    (1) 依据:已有很多文献提到,深度分类网络尽管只通过图像级标签的数据进行训练,仍可被成功应用于寻找目标定位的线索
    (2) 策略:使用基于梯度的显著性检测方法,使用seeding loss促使神经网络仅匹配“地标性”的区域,忽略其他位置
    种子生成过程示意图
  2. Lexpand当模型分割预测中存在太小或者分割错误的区域实施一定的惩罚,以确保目标区域的精确性
    (1) 目的:为确保分割mask和图像分类标签的一致性,可以通过损失函数将分割得分汇总到分类得分中
    (2) 依据:对于存在于图像中的类,全局最大池化(Global Max Pooling,GMP)仅使得单个位置的响应高,而全局平均池化(Global Average Pooling,GAP)促使所有位置的响应都很高
    (3) 策略:提出一种全局加权池化GWRP方法,将GMP和GAP进行综合。GWRP针对每个类别计算加权平均分数,赋予得分高的位置高权重,可有效缓解GMP和GAP矛盾的存在
  3. Lconstrain使分割预测充分考虑到图像的空间和颜色信息
    (1) 思想:惩罚神经网络产生对输入图像的空间和颜色信息不连续的分割,从而鼓励神经网络学习产生的分割mask与目标边界相匹配
    (2) 策略:借助条件随机场(Conditional Random Field,CRF)利用颜色、纹理等信息提取目标边界的特性,利用全连接的条件随机场(Fully-Connected CRF,FC-CRF)作为损失函数对目标边界进行优化

训练

  • 端到端训练

Experiments

  1. PASCAL VOC 2012数据集用于验证
  2. FC-CRF用作损失函数
  3. failure cases
    (1) 几乎总是共同出现的目标和背景(co-occurence),如水上的船只,轨道上的火车
    (2) 一些目标区域可以被正确分割,但被分配了错误的类别
    (3) 一些分割预测结果只能涵盖目标的一部分,不能分割出完整的目标,比如the face of a person
  4. 细节讨论
    较大的感受野(Field of View,FOV)可使网络模型的分类精度更高,但是会对目标分割产生不利影响;而较小的感受野往往在分类性能上有所减弱
  5. Insights
    (1) 有关目标的大小的知识
    (2) 较强的监督先验知识,比如形状或者材料
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值