机器学习 --- 半监督学习

C. 人工智能 — 机器学习 — 半监督学习

概述

  • 难点
    • 数据打标成本太高
  • 应用场景
    • 一小部分标签数据,大部分是无标签数据
  • 算法分类
    • Transductive learning: 无标签数据是测试数据
    • Inductive learning: 无标签数据不是测试数据

具体算法

  • 生成式模型(贝叶斯)
    • 通过不断的调整 概率值、均值、方差,来逐步获取更好的结果,参见k-means
      • 步骤
        • 通过K-means聚类,获取最接近质心的样本
        • 通过样本训练模型
        • 通过模型分类,获取置信度最高的一批样本
        • 重复第二步和第三步
    • 特点
      • Soft label
  • 低密度分割(数据集中,分类明显,非黑即白)
    • Self-training
      • 步骤
        • 第一步:从已有的标签数据中,训练模型
        • 第二步:用训练好的模型,对无标签数据进行分类
        • 第三步:从无标签数据从,抽取一部分数据加入到标签数据
        • 从第一步重新迭代
      • 例子
        • Regression 不适用该场景
    • 其他算法
      • Semi-supervised SVM
    • 如何评估数据是否集中
      • 通过信息熵的方式计算,越接近0,越集中
    • 特点
      • Hard label
  • 平滑性假设(smoothness assumption)
    • 核心:聚类 + 打标
    • 基于图的方法
      • 每一个连通图,属于同一个类
      • 难点
        • 如何建边
          • K nearest Neighbor
          • e-Neighborhood(相似度设置阀值)
        • 相似度计算公式
      • 应用场景
        • 网页分类,有互相超链接引用
        • 论文分类:论文之间相互引用
    • 如何定义平滑度
      • 通过拉普拉斯矩阵计算
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值