学习笔记7-半监督学习

李卓璐

已于 2022-04-20 14:48:49 修改

阅读量340

点赞数 2

分类专栏：学习笔记文章标签：机器学习聚类分类

于 2021-12-13 08:56:59 首次发布

本文链接：https://blog.csdn.net/LZL2020LZL/article/details/121789550

版权

学习笔记专栏收录该内容

41 篇文章 12 订阅

订阅专栏

一、聚类和分类的区别是什么？

分类： 一般对已知物体类别总数的识别方式我们称之为分类，并且训练的数据是有标签的，比如已经明确指定了是人脸还是非人脸，这是一种有监督学习。
聚类： 也存在可以处理类别总数不确定的方法或者训练的数据是没有标签的，这就是聚类，不需要学习阶段中关于物体类别的信息，是一种无监督学习。

二、半监督学习理论：

《Introduction to Semi-supervised Learning》

1.定义：有标签数据+无标签数据混合成的训练数据中使用的机器学习算法吧。一般假设，无标签数据比有标签数据多，甚至多得多。
2.条件：无标签数据一般是有标签数据中的某一个类别的（不要不属于的，也不要属于多个类别的）；有标签数据的标签应该都是对的；无标签数据一般是类别平衡的（即每一类的样本数差不多）；无标签数据的分布应该和有标签的相同或类似等。
3.半监督学习算法分类：
（1）简单自训练（simple self-training）：用有标签数据训练一个分类器，然后用这个分类器对无标签数据进行分类，这样就会产生伪标签（pseudo label）或软标签（soft label），挑选你认为分类正确的无标签样本（此处应该有一个挑选准则），把选出来的无标签样本用来训练分类器。
（2）协同训练（co-training）：其实也是 self-training 的一种，但其思想是好的。假设每个数据可以从不同的角度（view）进行分类，不同角度可以训练出不同的分类器，然后用这些从不同角度训练出来的分类器对无标签样本进行分类，再选出认为可信的无标签样本加入训练集中。由于这些分类器从不同角度训练出来的，可以形成一种互补，而提高分类精度；就如同从不同角度可以更好地理解事物一样。
（3）半监督字典学习：其实也是 self-training 的一种，先是用有标签数据作为字典，对无标签数据进行分类，挑选出你认为分类正确的无标签样本，加入字典中（此时的字典就变成了半监督字典了）
（4）标签传播算法（Label Propagation Algorithm）：是一种基于图的半监督算法，通过构造图结构（数据点为顶点，点之间的相似性为边）来寻找训练数据中有标签数据和无标签数据的关系。是的，只是训练数据中，这是一种直推式的半监督算法，即只对训练集中的无标签数据进行分类，这其实感觉很像一个有监督分类算法…，但其实并不是，因为其标签传播的过程，会流经无标签数据，即有些无标签数据的标签的信息，是从另一些无标签数据中流过来的，这就用到了无标签数据之间的联系
（5）半监督支持向量机：监督支持向量机是利用了结构风险最小化来分类的，半监督支持向量机还用上了无标签数据的空间分布信息，即决策超平面应该与无标签数据的分布一致（应该经过无标签数据密度低的地方）（这其实是一种假设，不满足的话这种无标签数据的空间分布信息会误导决策超平面，导致性能比只用有标签数据时还差）

4.常见算法：
生成模型算法、自训练算法、联合训练、半监督支持向量机、基于图论的方法等。

5.应用场景：
一些标记数据比较难获取的场景。

三、几种半监督学习算法详细介绍：

https://blog.csdn.net/sugar_HIT/article/details/87935808

李卓璐

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学习笔记7-半监督学习

《Introduction to Semi-supervised Learning》半监督学习理论：1.定义：有标签数据+无标签数据混合成的训练数据中使用的机器学习算法吧。一般假设，无标签数据比有标签数据多，甚至多得多。2.条件：无标签数据一般是有标签数据中的某一个类别的（不要不属于的，也不要属于多个类别的）；有标签数据的标签应该都是对的；无标签数据一般是类别平衡的（即每一类的样本数差不多）；无标签数据的分布应该和有标签的相同或类似等。3.分类：半监督学习算法可分为：self-training（自训
复制链接

扫一扫

专栏目录