弱监督学习的介绍及应用

最新推荐文章于 2025-03-04 19:42:59 发布

虹猫、少侠

最新推荐文章于 2025-03-04 19:42:59 发布

阅读量7.2k

点赞数 2

分类专栏：弱监督图像分割文章标签：深度学习

本文链接：https://blog.csdn.net/YUZHOUYANGAND/article/details/117434697

版权

弱监督图像分割专栏收录该内容

1 篇文章

订阅专栏

1 弱监督学习的简单介绍
弱监督学习是机器学习领域中的一个分支，与传统的监督学习相比，其使用有限的、含有噪声的或者标注不准确的数据来进行模型参数的训练。
2 弱监督学习的分类
1.不完全监督
2.不确切监督
3.不准确监督
2.1不完全监督
指的是训练数据只有部分是带有标签的，同时大量数据是没有被标注过的。这是最常见的由于标注成本过高而导致无法获得完全的强监督信号的情况，例如，聘请领域专家直接给大量数据添加标签的成本就相当高。
问题可以被形式化表达为：在训练数据为 D = {(x_1, y_1), …, (x_l, y_l), x_{l+1}, …, x_m}，其中 l 个数据有标签、u=m-l 个数据无标签的情况下，训练得到 f：x->y。在诸多针对不完全监督环境开发的机器学习范式中，主动学习、半监督学习、迁移学习是三种最流行的学习范式。
主动学习（active learning）：它假设未标注数据的真值标签可以向人类专家查询，让专家为估计模型最有价值的数据点打上标签，在我们只考虑用查询次数衡量标出成本的情况下，主动学习的目标是在提高查询效率，在查询次数尽可能小的情况下，使得训练出的模型性能最好。因此，主动学习需要选择出最有价值的未标注数据来查询人类专家。
半监督学习（semi-supervised learning）：与主动学习不同，半监督学习是一种在没有人类专家参与的情况下对未标注数据加以分析、利用的学习范式。通常，尽管未标注的样本没有明确的标签信息，但是其数据的分布特征与已标注样本的分布往往是相关的，这样的统计特性对于预测模型是十分有用的。实际上，半监督学习对于数据的分布有两种假设：聚类假设和流形假设。前者假设数据具有内在的聚类结构，因此，落入同一个聚类的样本类别相同。后者假设数据分布在一个流形上，在流形上相近的样本具有相似的预测结果。
在这里插入图片描述
迁移学习（transfer learning）：迁移学习是近年来被广泛研究，风头正劲的学习范式，其内在思想是借鉴人类「举一反三」的能力，提高对数据的利用率。具体而言，迁移学习的定义为：有源域 Ds和任务 Ts；目标域 Dt 和任务 Tt，迁移学习的目标是利用源域中的知识解决目标域中的预测函数 f，条件是源域和目标域不相同或者源域中的任务和目标域中的任务不相同。
2.2不确切监督
训练样本只有粗粒度（相当于整体）的标签。例如，针对一幅图片，只拥有对整张图片的类别标注，而对于图片中的各个实体（instance）则没有标注的监督信息。例如：当我们对一张肺部 X 光图片进行分类时，我们只知道某张图片是肺炎患者的肺部图片，但是并不知道具体图片中哪个部位的响应说明了该图片的主人患有肺炎。
2.3不准确监督
指的是标签的准确性，这个在大数据集里面，经常会出现，数据一般都是人来标的，很难保证每个数据的标签都是完全正确的，所以会有错误标签的情况出现，这些错误标签，可以看成是一种 “噪声”，不准确监督，研究的就是含有噪声标签时的学习问题。

3 弱监督学习在图像分割方面的应用
图像分割的任务是对每个像素都进行标注。因此，在深度学习方法中，直观上就需要所有的像素都有真值标注。不难看出，在这个要求下，真值标注的生成是极度耗时耗力的，尤其是以人工标注的方式。比如，CityScapes数据库，在精标条件下，一张图片的标注就需要1.5个小时。如此一来，数据库标注的成本可想而知。基于此，许多研究人员就想到用弱监督的方式进行网络训练，从而降低标注成本。
所谓弱监督，就是用更容易获得的真值标注替代逐像素的真值标注，常见的输入有image-level tags和bounding boxes，下图给出的是这两种标注的示例：
在这里插入图片描述
image-level tag：一张图片对应一个标签。如上图，标签为“狗”。

bounding box：即用一个矩形框（2D）或长方体（3D）给出目标存在的位置及标签。
由此可见，这两种标注的获得比逐个像素标注容易很多。具体来说，一个bounding box的标注只需要7秒，而一个image-level tag的标注只需要1秒，按照这种方式，CityScapes数据库的标注时间将缩短30倍。
在弱监督算法中，有的网络是直接利用这些标注作为输入；也有的网络是在这些标注的基础上生成部分像素点的标注，再进行全监督训练。但无论哪种方式，都可见直接降低了标注成本。
Image-level tags已经在前文给出了示例，可以看出这一种标注中主要包含的是相同类别之间的共性，但无法区分实例（比如所有的车都会被标注成“车”，而不会区分颜色、形状、大小、牌子等等）。因此基于image-level tags的算法大多用于语义分割，或是具有语义分割功能的实例分割或全景分割算法。下面就按照分类介绍部分基于image-level tags的深度学习分割算法。
Bounding boxes是目标识别中常用的一种标注方式。现在许多算法已经能够实现很高精度的bounding boxes检测效果，因此，COCO Challenge等许多比赛已经取消了bounding boxes为输出的部分，进而更多关注于像素级的分割任务。尽管如此，bounding boxes作为一种能够有效区分不同实例的标注方式，既包含了语义信息，也包含了实例信息。因此，bounding boxes被广泛应用于分割任务中，尤其是实例分割与全景分割。