半监督学习入门——《机器学习》周志华—第十三章

最新推荐文章于 2024-06-04 19:55:28 发布

qwq_xcyyy

最新推荐文章于 2024-06-04 19:55:28 发布

阅读量579

点赞数

分类专栏：机器学习之半监督学习文章标签：机器学习聚类算法

本文链接：https://blog.csdn.net/qwq_xcyyy/article/details/118852712

版权

4 篇文章 0 订阅

订阅专栏

13.1未标注样本

半监督学习	描述
概念	让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能
分类	纯半监督学习和直推学习## 标题

Q：如何利用未标记样本？
A：做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设，如聚类假设和流式假设（相似的样本拥有相似的输出）

生成式方法	描述：用于具体的应用领域（需要充分可靠的领域知识）
概念	直接基于生成式模型的方法
具体内容	模型→所有数据；未标记数据的标记→模型的缺失参数；通常可基于EM算法进行极大似然估计求解;方法的关键：选取的模型假设必须正确，即假设的生成式模型必须与真实数据吻合（难做到）¹
区别	生成式模型的假设——不同的模型假设将产生不同的方法
例子（高斯混合模型）
缺点	需要正确的假设模型

支持向量机 简称S3VM 低密度分离方法

对象	划分描述：需要减轻非凸函数造成的不利影响
SVM	不考虑未标记样本——试图找到最大间隔划分平面
S3VM	考虑了未标记样本——找到将两类有标记样本分开，且穿过数据低密度区域的划分平面

TSVM	描述
思想	label assignment，指派标记→上图的灰色点指派为“+”或“-”，所有样本→一个间隔最大化的划分超平面→未标记样本的最终指派就是其预测结果
具体内容
缺点	尝试未标记样本的各种标记指派是一个穷举过程，仅当未标记样本很少时才有可能直接求解。
研究重点	更高效的优化策略
局部搜索求近似解	①有标记样本→②SVM→③标记未标记样本，得“伪标记”→④新的划分平面和松弛向量，令有标记得重要程度大于未标记得重要程度→⑤找出两个标记指派为异类且很有可能发生错误得未标记样本，交换标记→⑥循环④⑤，逐步提高未标记样本得重要程度直到二者重要程度相等，结束循环
对应算法

知识点	描述
1
2	S.T. 是subject to 的缩写，作形容词用时，其基本含义是受限于…，服从于…，易受…；作副词用时，意思是在…条件下，依照…。

图半监督学习	描述：还有K近邻图的方法
概念	数据集→图，样本→图中结点，相似度→图的边（存在与否＋强度大小），染色→已标记，半监督学习→颜色在图中的扩散（基于矩阵运算）
二分类问题的标记传播方法
多分类问题的标记传播方法
缺点	一是存储开销。问题规模O(m),算法涉及的矩阵规模为O(m^2)，不利于处理大规模数据；二是新样本的加入需要①重构图，或者②引入额外的预测机制（另外训练一个学习器）。

基于分歧方法	描述：将集成学习和半监督学习联系起来，可自然与主动学习结合
概念	使用多学习器，基于学习器之间的分歧(disagreement;diversity)来利用未标记数据
协同训练multi-view learning	多视图（multi-view）数据？一个数据对象同时拥有多个”属性集“(attribute set)，每个属性集就构成一个”视图“(view)。(<x1,x2>,y)是多视图数据，x1、x2分别对应一个数据对象不同视图中的属性向量，y是标记。
优点	算法简单；在视图充分且条件独立（现实中很难满足），可将弱分类器的泛化性能提升到任意高；同时，后续研究表明，也可用于单视图数据，如使用不同的学习算法、使用不同的数据采样、使用不同的参数设置来产生不同的学习器，也可以提升性能。只要学习器之间又显著分歧即可。
缺点	标记样本很少，或布局有多视图时，需要巧妙设计。

Q：标记样本少——在先使用了主动学习挑出有价值的样本进行标记后能否解决这个问题？
A：本来有疑问，读到13.7时才发现周志华老师已经想到了这点。故在描述的那栏加上了解释。

半监督聚类	描述：流形正则化框架，预测函数具有局部光滑性
概念	聚类是一种典型的无监督学习任务；利用额外的监督信息，可以实现半监督聚类
监督信息分类	①“必连”+“勿连”：前者样本属于同一个簇；后者不属于同一个簇②少量的有标记样本
约束K均值算法①
约束K均值算法②

未标注的都为书中截图或者百度百科解释

关注