机器学习 --- 半监督学习

最新推荐文章于 2024-07-12 14:46:03 发布

micklongen

最新推荐文章于 2024-07-12 14:46:03 发布

阅读量281

点赞数

分类专栏： # 机器学习文章标签：机器学习人工智能 c语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/micklongen/article/details/120926847

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

C. 人工智能 — 机器学习 — 半监督学习

概述

难点
- 数据打标成本太高
应用场景
- 一小部分标签数据，大部分是无标签数据
算法分类
- Transductive learning: 无标签数据是测试数据
- Inductive learning: 无标签数据不是测试数据

具体算法

生成式模型（贝叶斯）
- 通过不断的调整概率值、均值、方差，来逐步获取更好的结果，参见k-means
  - 步骤
    - 通过K-means聚类，获取最接近质心的样本
    - 通过样本训练模型
    - 通过模型分类，获取置信度最高的一批样本
    - 重复第二步和第三步
- 特点
  - Soft label
低密度分割（数据集中，分类明显，非黑即白）
- Self-training
  - 步骤
    - 第一步：从已有的标签数据中，训练模型
    - 第二步：用训练好的模型，对无标签数据进行分类
    - 第三步：从无标签数据从，抽取一部分数据加入到标签数据
    - 从第一步重新迭代
  - 例子
    - Regression 不适用该场景
- 其他算法
  - Semi-supervised SVM
- 如何评估数据是否集中
  - 通过信息熵的方式计算，越接近0，越集中
- 特点
  - Hard label
平滑性假设(smoothness assumption)
- 核心：聚类 + 打标
- 基于图的方法
  - 每一个连通图，属于同一个类
  - 难点
    - 如何建边
      - K nearest Neighbor
      - e-Neighborhood（相似度设置阀值）
    - 相似度计算公式
  - 应用场景
    - 网页分类，有互相超链接引用
    - 论文分类：论文之间相互引用
- 如何定义平滑度
  - 通过拉普拉斯矩阵计算

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习 --- 半监督学习

机器学习 - 半监督学习概述难点数据打标成本太高应用场景一小部分标签数据，大部分是无标签数据算法分类Transductive learning: 无标签数据是测试数据Inductive learning: 无标签数据不是测试数据具体算法生成式模型（贝叶斯）通过不断的调整概率值、均值、方差，来逐步获取更好的结果\n参见k-means特点Soft label低密度分割（数据集中，分类明显，非黑即白）Self-training步骤第一步
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。