VALSE 2019 4月11日晚第五会场弱监督视觉理解会议记录

最新推荐文章于 2024-07-23 23:50:31 发布

HuaYuuuu

最新推荐文章于 2024-07-23 23:50:31 发布

阅读量874

点赞数 2

文章标签： VALSE 弱监督视觉理解

本文链接：https://blog.csdn.net/qq_31049727/article/details/89334903

版权

4月11日晚第五会场弱监督视觉理解

主持人：王兴刚——华中科技大学

弱监督分为三类（三个等级）：

不完备：一部分标签已经存在，但是仍有一部分数据不存在标签；或者是在多任务学习中，某些数据有某些标签，另一些数据有另外一类标签，两种标签都存在的数据非常少；

不准确：存在噪声（比如在网上收集数据作为网络训练数据时），

不确切：比如在cityscape中，存在一部分非常粗糙的标签（20000张）；有一些语义分割标签在给出的时候不是以每个像素标签都给出，而是在某些像素中间给出一个点，这个点属于哪个类别。

题目：面向开放环境的自适应视觉感知

讲者：程明明——南开大学

弱监督的瓶颈问题：

依赖大规模标注数据
精确标注信息稀缺（如医学图像领域等实际应用的时候没有可以直接套用的数据）

团队希望从以下几个方面来解决跟弱监督相关联的问题，分为三个方面：

深度神经网络共性技术
视觉基元属性
关键算法

并最终将三者结合，促进实际应用。流程图如下：

深度神经网络共性技术：

该团队将切入点放在backbone上，认为需要更加深层次应用多尺度的信息。

例如AlexNet、VGG、ResNet

又将切入点放在bottleneck上，认为只在大的网络结构上进行多尺度信息的复用是不行的，还需要在block层面上甚至是网络层内进行多尺度信息的利用。

原bottleneck和新设计的富尺度空间的通用架构如下:

其中，X1，X2，X3，X4代表将1*1卷积之后变化出来的通道数进行平均分，然后如同瀑布的形式将上一部分的信息添加一个3*3的卷积并连接到下一个部分。

直接替换之后在ResNet等网络上都有性能的提升。

甚至能够嵌入SENet和GroupConv中。

思考：首先，这个网络block设计的相当突兀，一开始只是说明了一个observation：要利用网络中的多尺度的信息。但是，这是从结果出发来讲，并没有却解释为什么要这么设计一个网络模块，这样设计的好处在哪里，有没有必须要这么设计的理由和原因，都不知道。只是说了最后结果还可以，但是并不能够从motivation上说明问题。其次，网络设计的感觉有点随意了，如果可以这么设计，还可以对没部分进行重排，还可以对channel之间进行shuffle，进一步说明了这个结构不能够让人信服，没有这么设计的必要性论证。

视觉基元属性感知：

基元属性是什么：显著性、边缘、对比度等一系列图像中的固有属性，该属性不具有针对某种特定任务的性质，基元属性与实际应用的关系并不大。

比如RGB-D图像，深度图中一般噪声很大、分辨率低，怎样将其和RGB图像进行融合也是一个问题。

他们组关于利用显著性对物体检测的工作如下：（没太听懂）

虽然后面的各个任务没太听懂，但是这部分有着很重要的一个思想，那就是：他们认为，基元属性与实际应用实际上关系并不大。如边缘是图像的一种基元属性，这个属性可以用于显著性检测，语义分割，目标分割，目标跟踪等各个任务上，而这种通用的基元属性就是通用的解决这一系列问题的一个关键（不知道是不是真的是关键，但是思路值得借鉴，就像已经发现了图像或者人物的内在属性一样，着手从内在属性来解决问题。）

关键机器学习算法：（介绍他们组的工作）

显著性Instance检测：

在Mask-RCNN上改造而来，将ROI-Align改造成ROI-Masking（具体是什么没太听明白，总体而言就是改进了ROI-Align然后使得框更准，更适用于分割。）

显著性Instance（只知道Instance而不知道Label），由生成的Instance之间进行构图并设计度量来进行聚类，如下图：

整体将流程归纳一下，做出工作如下：

重点在于两点，一个是基元特征提取，一个是背景噪声去除。噪声（无效图片）去除的思路在2018年CVPR上见到了2-3篇，不知道其中有没有他们的工作，回头专门去找一下。

还有一些弱监督方法，如生成显著的实例（利用显著性检测，生成每个实例的mask，然后以此训练网络），他们也做了一定尝试。

总结

总体来说就是分为了三个方面，第一个就是深度神经网络共性技术方面，他们提出了一个富尺度空间的深度神经网络通用架构（应该是很通用的，但是出发点讲的太泛，没有什么指导意义，熔断分析感觉也没有做的特别详细。）第二个方面就是要挖掘视觉基元属性，第三个算法层面，他们是利用网络数据来训练深度神经网络的（包含去噪等问题）。

题目：从弱监督到自学习目标建模

讲者：叶齐祥——中国科学院大学

目标，出发点

语义分割从全监督到弱监督

希望标注过程可以变得廉价（1.5h和7s）

弱监督实际上是隐变量模型

分析

下面是完全监督的，有人工才会有智能

这里给出的解决方案就是利用弱监督的数据标注，然后就能够进行弱监督的学习，进而得到训练集，减少标注成本（？？？？怎么就变成了标注了？这样一来解决的问题都变了）

另外，如果把弱监督问题视作一个隐变量模型，那么有一个问题必须要去注意到，即隐变量的优化实际上是一个非凸问题。

所以引出了两个解决方向，如下图：

图正则化
分析用平滑方程来近似原方程

（这个问题很有意思，将弱监督结合到了优化框架里面去，需要找一下他们的工作来阅读一下，虽然我当时没太明白）

这里他们介绍了一个工作，先用近似的平滑方程来求解极值，进而以这个极值为出发点，逐步原LossFunc拟合出来，这样一方面是逐步来得到下一个epoch的初值，另一方面更靠近原问题。

另外一个工作是SPN，关键点是使用了图正则化，而图正则化是凸的。

总结及展望

这个部分我觉得是今晚讲的最好的一个观点。

把weakly supervised问题转化为一个learning from X的问题，这个X可以是很多东西，比如这里就列出了四个（最后一个是信仰）：

Active learning
Incremental learning
Semantic feedback
Temporal

这个观点我目前还没在其他的文章中见到过，将若监督问题上升到了X的层次并将其统一起来，而不是单纯的把弱监督视作要解决缺乏标注数据的问题，或者说把弱监督问题视作域适应问题。这样的统一框架我觉得以后可以做很多的工作，甚至可以多个任务联合弱监督学习。

还有他们发现了一个小点：残差网络的激活区域是比较小的，不过我暂时不知道怎么去应用这个性质。还提到了这个人

忘了是从哪里提到的，抽时间看看他的工作。

他们提到的具体里面都有哪些工作需要后面具体看看文章。

题目：Weakly-supervised object discovery based on pre-trained deep CNNs

讲者：魏秀参——旷视科技

主要针对图像检索上面做工作。图像检索主要分为两类，一个是以文本来进行检索，另一个是以样本（图片）进行检索。

一般来说，所有的输入经过特征提取后会放到数据库中，每当需要进行检索的时候，输入图像经过特征提取之后与数据库内图片进行比较，并返回数据库中的图片。

CIBR流程：

他们的关键点在于，希望利用已经预训练好的模型（ImageNet上训练的VGG，ResNet等等）来进行弱监督学习。他们有一个观察是：ResNet中，每个channel会注意到物体的不同判别性部位（discrimitive part）

其中，descriptors中，一些噪声响应不为正，这样可以去除噪声

其他的我没弄明白他们工作的内容，就略过去了。

题目：Cost-Sensitive Active Learning

讲者：黄圣君——南京航空航天大学

核心：怎么去减少查询个数从而减少标注代价。

标注成本和问询次数并不是完全一致，因为不同种类的标注所花成本不一样。

这个成本与以下几个方面有关：

Instance

Features

Labels

Oracles

样本层面：

Active query for inconsistent and frequent video.

特征层面：

Query的不是label而是feature，这样可以减少标注成本。

怎么处理特征丢失？——矩阵补全

总体来说因为这两个领域和我这边不太一样，所以没太听懂。

题目：Towards Weakly Supervised Object Recognition and Scene Parsing

讲者：魏云超——UIUC

背景

把弱监督问题视作用更廉价或者更简单的数据训练网络（如何生成伪GT）的问题。但是感觉这个人没有第二个人理解透彻。

关键点：利用对抗擦除来生成标签，在多次迭代中，逐步将目标区域补齐。

于是提出了Self-Erasing Network, 利用点状的标注来进行学习。

Panel

弱监督目前的现状：

与全监督的差距越来越小
性能从20提升到了60，有一些trick，但是觉得逼近是有可能的，但是超过是很难的。
已有的数据要用起来，不能为了weakly而去weakly（我觉得这个是真的想解决实际问题的方向，不能为了全监督或者为了弱监督而被这些条件困住，而是应该更从实际出发思考问题如何解决）
弱监督是否有必要？成本曲线都知道，做到完全的逼近有可能需要更多的成本，这样边际效应算下来是否值得，暂时不知道。
不能死磕一个数据集，也说不定有一些其他信息可以使用，比如网上搜索，预训练的权重等。

弱监督还有什么可以做：

对于弱监督的理解有一些狭窄，并不是深度学习之后才有弱监督。两者并不是从属关系，更应该思考两者之间的关系，这样有助于两个关系的协同理解。而人作为一种高级动物，应该会有更为高效的指导方式，而不是单独使用标签这种最原始的。
人生下来的时候，基因已经确定，相当于确定了一些网络能力，但是后天的学习都是靠Active Learning和Weakly supervised learning，所以对于机制的探索还需要继续。