C. 人工智能 — 机器学习 — 半监督学习
概述
- 难点
- 数据打标成本太高
- 应用场景
- 一小部分标签数据,大部分是无标签数据
- 算法分类
- Transductive learning: 无标签数据是测试数据
- Inductive learning: 无标签数据不是测试数据
具体算法
- 生成式模型(贝叶斯)
- 通过不断的调整 概率值、均值、方差,来逐步获取更好的结果,参见k-means
- 步骤
- 通过K-means聚类,获取最接近质心的样本
- 通过样本训练模型
- 通过模型分类,获取置信度最高的一批样本
- 重复第二步和第三步
- 步骤
- 特点
- Soft label
- 通过不断的调整 概率值、均值、方差,来逐步获取更好的结果,参见k-means
- 低密度分割(数据集中,分类明显,非黑即白)
- Self-training
- 步骤
- 第一步:从已有的标签数据中,训练模型
- 第二步:用训练好的模型,对无标签数据进行分类
- 第三步:从无标签数据从,抽取一部分数据加入到标签数据
- 从第一步重新迭代
- 例子
- Regression 不适用该场景
- 步骤
- 其他算法
- Semi-supervised SVM
- 如何评估数据是否集中
- 通过信息熵的方式计算,越接近0,越集中
- 特点
- Hard label
- Self-training
- 平滑性假设(smoothness assumption)
- 核心:聚类 + 打标
- 基于图的方法
- 每一个连通图,属于同一个类
- 难点
- 如何建边
- K nearest Neighbor
- e-Neighborhood(相似度设置阀值)
- 相似度计算公式
- 如何建边
- 应用场景
- 网页分类,有互相超链接引用
- 论文分类:论文之间相互引用
- 如何定义平滑度
- 通过拉普拉斯矩阵计算