半监督学习（semi-supervised learning）

最新推荐文章于 2023-07-12 01:40:22 发布

n不正

最新推荐文章于 2023-07-12 01:40:22 发布

阅读量5.5k

点赞数 2

分类专栏：李宏毅机器学习笔记

本文链接：https://blog.csdn.net/qq_30981697/article/details/70182954

版权

20 篇文章 0 订阅

订阅专栏

# 半监督学习（semi-supervised learning）

why semi-supervised learning?

收集数据很贵，收集有标签的数据更贵！
superviesd： $D = \{ (x_i,y_i)\}_{i = 1}^N$
semi-supervised： D={(xi,yi)}Mi=1∪{xu}Nj=M+1 ，通常N ≫ M
- 转导推理——Transductive Learning：无标签数据就是测试数据
- 归纳学习——Inductive Learning：无标签数据不是测试数据

initialzation： $\theta = \{P(C_1), P(C_2), \mu_1, \mu_2, \sum\}$
- step 1：计算无标签数据的后验概率 $P_{\theta}(C_1|x_u)$
- step 2：更新模型
  
  $P(C_1) = \frac{N_1 + \sum\limits_{x_u} P(C_1|x_u)}{N}$ ， $N_1$ 是属于第一类的实例的个数， $\mu_1 = \frac{1}{N_1}\sum\limits_{x_i \in C_1 } x_i+ \frac{1}{ \sum \limits_{x_u}P(C_1|x_u)} \sum\limits_{x_u} P(C_1|x_u)x_u$
- 回到step 1
maximum likelihood with labelled data：
- $logL(\theta) = \sum\limits_{x_i} logP_{\theta}(x_i,y_i)$
- $P_{\theta}(x_i,y_i) = P_{\theta}(x_i|y_i)P(y_i)$
maximum likelihood with labelled + unlabelled data：
- $logL(\theta) = \sum\limits_{x_i} logP_{\theta}(x_i) + \sum\limits_{x_u} logP_{\theta}(x_u)$
- $P_{\theta}(x_u) = P_{\theta}(x_u|C_1)P(C_1) + P_{\theta}(x_u|C_2)P(C_2)$