VALSE 2019 4月11日 晚 第五会场 弱监督视觉理解 会议记录

4月11日  晚  第五会场  弱监督视觉理解

主持人:王兴刚——华中科技大学

弱监督分为三类(三个等级):

不完备:一部分标签已经存在,但是仍有一部分数据不存在标签;或者是在多任务学习中,某些数据有某些标签,另一些数据有另外一类标签,两种标签都存在的数据非常少;

不准确:存在噪声(比如在网上收集数据作为网络训练数据时),

不确切:比如在cityscape中,存在一部分非常粗糙的标签(20000张);有一些语义分割标签在给出的时候不是以每个像素标签都给出,而是在某些像素中间给出一个点,这个点属于哪个类别。

题目:面向开放环境的自适应视觉感知

讲者:程明明——南开大学

弱监督的瓶颈问题:

  • 依赖大规模标注数据
  • 精确标注信息稀缺(如医学图像领域等实际应用的时候没有可以直接套用的数据)

团队希望从以下几个方面来解决跟弱监督相关联的问题,分为三个方面:

  • 深度神经网络共性技术
  • 视觉基元属性
  • 关键算法

并最终将三者结合,促进实际应用。流程图如下:

  • 深度神经网络共性技术:

该团队将切入点放在backbone上,认为需要更加深层次应用多尺度的信息。

例如AlexNet、VGG、ResNet

又将切入点放在bottleneck上,认为只在大的网络结构上进行多尺度信息的复用是不行的,还需要在block层面上甚至是网络层内进行多尺度信息的利用。

原bottleneck和新设计的富尺度空间的通用架构如下:

 

其中,X1,X2,X3,X4代表将1*1卷积之后变化出来的通道数进行平均分,然后如同瀑布的形式将上一部分的信息添加一个3*3的卷积并连接到下一个部分。

直接替换之后在ResNet等网络上都有性能的提升。

甚至能够嵌入SENet和GroupConv中。

思考:首先,这个网络block设计的相当突兀,一开始只是说明了一个observation:要利用网络中的多尺度的信息。但是,这是从结果出发来讲,并没有却解释为什么要这么设计一个网络模块,这样设计的好处在哪里,有没有必须要这么设计的理由和原因,都不知道。只是说了最后结果还可以,但是并不能够从motivation上说明问题。其次,网络设计的感觉有点随意了,如果可以这么设计,还可以对没部分进行重排,还可以对channel之间进行shuffle,进一步说明了这个结构不能够让人信服,没有这么设计的必要性论证。

  • 视觉基元属性感知:

基元属性是什么:显著性、边缘、对比度等一系列图像中的固有属性,该属性不具有针对某种特定任务的性质,基元属性与实际应用的关系并不大。

比如RGB-D图像,深度图中一般噪声很大、分辨率低,怎样将其和RGB图像进行融合也是一个问题。

他们组关于利用显著性对物体检测的工作如下:(没太听懂)

虽然后面的各个任务没太听懂,但是这部分有着很重要的一个思想,那就是:他们认为,基元属性与实际应用实际上关系并不大。如边缘是图像的一种基元属性,这个属性可以用于显著性检测,语义分割,目标分割,目标跟踪等各个任务上,而这种通用的基元属性就是通用的解决这一系列问题的一个关键(不知道是不是真的是关键,但是思路值得借鉴,就像已经发现了图像或者人物的内在属性一样,着手从内在属性来解决问题。)

 

  • 关键机器学习算法:(介绍他们组的工作)

显著性Instance检测:

在Mask-RCNN上改造而来,将ROI-Align改造成ROI-Masking(具体是什么没太听明白,总体而言就是改进了ROI-Align然后使得框更准,更适用于分割。)

显著性Instance(只知道Instance而不知道Label),由生成的Instance之间进行构图并设计度量来进行聚类,如下图:

整体将流程归纳一下,做出工作如下:

重点在于两点,一个是基元特征提取,一个是背景噪声去除。噪声(无效图片)去除的思路在2018年CVPR上见到了2-3篇,不知道其中有没有他们的工作,回头专门去找一下。

还有一些弱监督方法,如生成显著的实例(利用显著性检测,生成每个实例的mask,然后以此训练网络),他们也做了一定尝试。

  • 总结

总体来说就是分为了三个方面,第一个就是深度神经网络共性技术方面,他们提出了一个富尺度空间的深度神经网络通用架构(应该是很通用的,但是出发点讲的太泛,没有什么指导意义,熔断分析感觉也没有做的特别详细。)第二个方面就是要挖掘视觉基元属性,第三个算法层面,他们是利用网络数据来训练深度神经网络的(包含去噪等问题)。

 

题目:从弱监督到自学习目标建模

讲者:叶齐祥——中国科学院大学

  • 目标,出发点

语义分割从全监督到弱监督

希望标注过程可以变得廉价(1.5h和7s)

弱监督实际上是隐变量模型

  • 分析

下面是完全监督的,有人工才会有智能

这里给出的解决方案就是利用弱监督的数据标注,然后就能够进行弱监督的学习,进而得到训练集,减少标注成本(????怎么就变成了标注了?这样一来解决的问题都变了)

另外,如果把弱监督问题视作一个隐变量模型,那么有一个问题必须要去注意到,即隐变量的优化实际上是一个非凸问题。

所以引出了两个解决方向,如下图:

  • 图正则化
  • 分析用平滑方程来近似原方程

(这个问题很有意思,将弱监督结合到了优化框架里面去,需要找一下他们的工作来阅读一下,虽然我当时没太明白)

这里他们介绍了一个工作,先用近似的平滑方程来求解极值,进而以这个极值为出发点,逐步原LossFunc拟合出来,这样一方面是逐步来得到下一个epoch的初值,另一方面更靠近原问题。

另外一个工作是SPN,关键点是使用了图正则化,而图正则化是凸的。

  • 总结及展望

这个部分我觉得是今晚讲的最好的一个观点。

把weakly supervised问题转化为一个learning from X的问题,这个X可以是很多东西,比如这里就列出了四个(最后一个是信仰):

  • Active learning
  • Incremental learning
  • Semantic feedback
  • Temporal

这个观点我目前还没在其他的文章中见到过,将若监督问题上升到了X的层次并将其统一起来,而不是单纯的把弱监督视作要解决缺乏标注数据的问题,或者说把弱监督问题视作域适应问题。这样的统一框架我觉得以后可以做很多的工作,甚至可以多个任务联合弱监督学习。

 

还有他们发现了一个小点:残差网络的激活区域是比较小的,不过我暂时不知道怎么去应用这个性质。还提到了这个人

忘了是从哪里提到的,抽时间看看他的工作。

 

他们提到的具体里面都有哪些工作需要后面具体看看文章。

 

题目:Weakly-supervised object discovery based on pre-trained deep CNNs

讲者:魏秀参——旷视科技

主要针对图像检索上面做工作。图像检索主要分为两类,一个是以文本来进行检索,另一个是以样本(图片)进行检索。

一般来说,所有的输入经过特征提取后会放到数据库中,每当需要进行检索的时候,输入图像经过特征提取之后与数据库内图片进行比较,并返回数据库中的图片。

CIBR流程:

 

 

 

他们的关键点在于,希望利用已经预训练好的模型(ImageNet上训练的VGG,ResNet等等)来进行弱监督学习。他们有一个观察是:ResNet中,每个channel会注意到物体的不同判别性部位(discrimitive part)

其中,descriptors中,一些噪声响应不为正,这样可以去除噪声

其他的我没弄明白他们工作的内容,就略过去了。

 

题目:Cost-Sensitive Active Learning

讲者:黄圣君——南京航空航天大学

核心:怎么去减少查询个数从而减少标注代价。

标注成本和问询次数并不是完全一致,因为不同种类的标注所花成本不一样。

 

这个成本与以下几个方面有关:

Instance

Features

Labels

Oracles

样本层面:

Active query for inconsistent and frequent video.

 

特征层面:

Query的不是label而是feature,这样可以减少标注成本。

怎么处理特征丢失?——矩阵补全

总体来说因为这两个领域和我这边不太一样,所以没太听懂。

 

题目:Towards Weakly Supervised Object Recognition and Scene Parsing

讲者:魏云超——UIUC

  • 背景

把弱监督问题视作用更廉价或者更简单的数据训练网络(如何生成伪GT)的问题。但是感觉这个人没有第二个人理解透彻。

关键点:利用对抗擦除来生成标签,在多次迭代中,逐步将目标区域补齐。

 

于是提出了Self-Erasing Network, 利用点状的标注来进行学习。

 

Panel

弱监督目前的现状:

  • 与全监督的差距越来越小
  • 性能从20提升到了60,有一些trick,但是觉得逼近是有可能的,但是超过是很难的。
  • 已有的数据要用起来,不能为了weakly而去weakly(我觉得这个是真的想解决实际问题的方向,不能为了全监督或者为了弱监督而被这些条件困住,而是应该更从实际出发思考问题如何解决)
  • 弱监督是否有必要?成本曲线都知道,做到完全的逼近有可能需要更多的成本,这样边际效应算下来是否值得,暂时不知道。
  • 不能死磕一个数据集,也说不定有一些其他信息可以使用,比如网上搜索,预训练的权重等。

弱监督还有什么可以做:

  • 对于弱监督的理解有一些狭窄,并不是深度学习之后才有弱监督。两者并不是从属关系,更应该思考两者之间的关系,这样有助于两个关系的协同理解。而人作为一种高级动物,应该会有更为高效的指导方式,而不是单独使用标签这种最原始的。
  • 人生下来的时候,基因已经确定,相当于确定了一些网络能力,但是后天的学习都是靠Active Learning和Weakly supervised learning,所以对于机制的探索还需要继续。
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值