1、主动学习(Active Learning):
含义:
有的时候,有类标的数据比较稀少而没有类标的数据是相当丰富的,但是对数据进行人工标注又非常昂贵,这时候,学习算法可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注。这个筛选过程也就是主动学习主要研究的地方了,怎么样筛选数据才能使得请求标注的次数尽量少而最终的结果又尽量好。
主动学习的过程大致是这样的,有一个已经标好类标的数据集K(初始时可能为空),和还没有标记的数据集U,通过K集合的信息,找出一个U的子集C,提出标注请求,待专家将数据集C标注完成后加入到K集合中,进行下一次迭代。
特点:
- 交互性强:涉及与人类专家的交互来获得有价值的标签。
- 高效利用:可以用较少的标注资源获得较好的模型性能。
- 特定方向:主动选择最具挑战性或最有信息量的样本进行标注。
2、半监督学习(Semi-Supervised Learning):
【有点类似于re-training】
半监督学习是一种介于监督学习和无监督学习之间的方法。它使用大量的无标签样本和少量的有标签样本共同训练模型。半监督学习的方法通常通过利用数据的分布、集群、流形等结构信息来推断无标签数据可能的标签,从而辅助模型的训练。
一般,半监督学习算法可分为:self-training(自训练算法)、Graph-based Semi-supervised Learning(基于图的半监督算法)、Semi-supervised supported vector machine(半监督支持向量机,S3VM)。简单介绍如下:
简单自训练(simple self-training):假如你现在的任务是分类,用有标签数据训练一个分类器,然后用这个分类器对无标签数据进行分类,这样就会产生伪标签(pseudo label)或软标签(soft label),挑选你认为分类正确的无标签样本(此处应该有一个挑选准则),把选出来的无标签样本再反过来用来训练分类器。
特点:
- 自动利用:无需人工选择,自动利用无标签样本的潜在信息。
- 结构挖掘:挖掘数据的内在结构和模式来辅助有标签样本的学习。
- 不依赖交互:与主动学习不同,不需要与人类专家交互来获取更多的标签。
主动学习和半监督学习的区别与联系
半监督学习和主动学习,都属于利用未标记数据的学习技术,但基本思想还是有区别的。
主动学习的“主动”,指的是主动提出标注请求,也就是说,还是需要一个外在的能够对其请求进行标注的实体(通常就是相关领域人员),即主动学习是交互进行的。
总结对比:
- 主动学习强调通过人机交互主动选择特定样本进行标注,以提高学习效率。
- 半监督学习则自动利用无标签样本中的潜在结构,无需额外的人机交互。
- 主动学习通常更关注样本选择策略,而半监督学习更注重利用无标签样本的整体结构信息。
- 主动学习的效率可能更高,因为它可以更精确地定位到最有助于模型训练的样本,但需要人工参与;半监督学习可以自动进行,但可能不如主动学习精确。
3、弱监督学习(Weakly Supervised Learning)
弱监督学习(Weakly Supervised Learning)是机器学习中的一种范式,它介于监督学习和无监督学习之间。在弱监督学习中,训练数据被标注,但这些标注可能是不完整的、不精确的或者在某种程度上是不可靠的。弱监督学习的目标是在这种不完美的训练数据上构建有效的学习模型。
弱监督学习的典型应用场景包括:
- 不完整的监督:只有一部分训练数据有标签。
- 不准确的监督:训练数据中的标签有错误。
- 不确切的监督:标签是粗粒度的,比如分类问题中的标签可能仅指示一个大类别,而不是具体的子类别。
弱监督学习的技术和方法通常旨在通过各种策略来克服标注数据的这些限制,如:
- 利用未标注数据来提高学习模型的性能,这可以通过半监督学习方法实现,其中结合了少量标注数据和大量未标注数据。
- 开发鲁棒的模型,这些模型能够从错误或噪声标注中学习。
- 使用多个弱标注源,通过集成学习方法来提高标注的准确性和完整性。
弱监督学习对于那些难以获得大量准确标注数据的应用场景尤为有用,比如在某些医学图像处理、网络内容分类和自然语言处理任务中,准确的标注可能需要大量的专业知识、时间和资源。通过利用弱监督学习,研究者和开发者可以在这些领域构建有效的机器学习模型,即便是在标注数据有限的情况下。
弱监督学习和半监督学习的区别
弱监督学习和半监督学习都是机器学习中用于处理不完全标注数据的策略,但它们在目标、方法和应用场景上有一些关键的区别:
弱监督学习:
- 目标:利用质量不高的标注数据进行学习。这些数据可能是不完整的、不准确的、含有噪声的,或者以某种方式是不可靠的。
- 数据特征:训练数据可能包含错误的标签、粗略的标签或者只有部分数据被标注。例如,在图像识别任务中,一个图像可能被简单地标注为包含某个对象,而不指明对象的具体位置或边界。
- 方法:采用多种技术来克服标注数据的不完美,如通过集成不同的弱标注源、利用外部知识库或规则来增强标注质量,或者开发特定的算法来处理噪声和不准确的标注。
半监督学习:
- 目标:结合少量的标注数据和大量的未标注数据来进行学习。假设标注数据和未标注数据在某种程度上是相似的或具有共同的结构特征。
- 数据特征:训练数据中的一小部分具有准确的标注,而大部分数据是未标注的。标注数据通常被认为是准确的,质量较高。
- 方法:采用特定的算法来利用未标注数据的结构信息,提高学习模型的性能。这些方法可能包括自训练、生成对抗网络(GANs)、图模型等。
区别总结:
- 标注数据的质量:弱监督学习关注于如何利用质量不高的标注数据,而半监督学习侧重于如何最大化少量高质量标注数据和大量未标注数据的联合使用。
- 标注数据的量:半监督学习通常假设有大量的未标注数据可用,而弱监督学习可能不依赖于大量未标注数据,更多地关注于标注数据的质量和如何处理。
- 应用场景:弱监督学习适用于标注成本高昂或难以获得准确标注的场景,而半监督学习适用于标注数据稀缺但未标注数据充足的情况。
虽然两者都是解决有限标注数据问题的策略,但它们的出发点、使用的数据特性和采用的技术方法有所不同。在实际应用中,选择哪种方法取决于具体问题的性质、可用数据的类型和量,以及特定任务的需求。
主动学习与半监督学习Active-learning and Semi-supervised learning_从未被模仿一直被超越的博客-CSDN博客