机器学习之七（读书笔记）

最新推荐文章于 2024-05-20 23:56:38 发布

VIP文章 L_cherry_

最新推荐文章于 2024-05-20 23:56:38 发布

阅读量155

点赞数

分类专栏：人工智能读书笔记文章标签：机器学习概率论算法

本文链接：https://blog.csdn.net/l_cherry_/article/details/120079934

版权

Semi-supervised Learning
Unsupervised Learning :Word Embedding

十二、Semi-supervised Learning（半监督学习）
1、介绍
Supervised learning : $\begin{Bmatrix} (x^r,\hat{y}^r) \end{Bmatrix}^R_{r = 1}$ ，其中 $x^r$ :image, $\hat{y}^r$ :class labels;
Supervised learning有一大堆training data，组成是一个function的input和output;

Semi-Supervised learning : $\begin{Bmatrix} (x^r,\hat{y}^r) \end{Bmatrix}^R_{r = 1}$ , $\begin{Bmatrix} x^u \end{Bmatrix}^{R+U}_{u = R}$
Semi-Supervised learning :(1)在labeled data上有另一组unlabeled的data，即 $x^u$ ，只有function的input，没有output；(2)一般，希望unlabeled的数量远大于labeled的数量，即U>>R;(3)Semi-Supervised learning 可以分成两种：Transductive learning（导入学习）、Inductive learning（归纳学习），在做Transductive learning时unlabeled data 就是testing data，在做时Inductive learningunlabeled data 不是testing data。

为什么要做Semi-Supervised learning ？
收集数据容易，但是搜集labeled的数据不容易

2、Semi-Supervised learning for Generative Model
Supervised Generative Model:labeled training examples $x^r\in C_1,C_2$ ,已知这些data分别属于class 1 还是class 2，会去估测prior probability $P(C_i)$ 以及class-dependent probability $P(x|C_i)$ ；假设每个class的分布都是Gaussian distribution：
在这里插入图片描述
有了这些数据 $P(C_1),P(C_2),\mu^1,\mu^2,\Sigma$ ，就可以求一个新的data属于 $C_1$ 还是 $C_2$ 的概率，就可以做Classification，决定boundary的位置：

但是如果给了unlabeled data，就会影响这个决定。假设下图绿色的点为unlabeled data的话，它们分布的形状也会发生改变：
在这里插入图片描述

Semi-Supervised Generative Model：首先初始化一组参数
$\theta = \begin{Bmatrix} P(C_1),P(C_2),\mu^1, \mu^2,\Sigma \end{Bmatrix}$ ;
(1)第一步，估算每一笔unlabeled data属于class 1的posterior probability $P_\theta (C_1| x^u)$

最低0.47元/天解锁文章

L_cherry_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之七（读书笔记）

Semi-supervised LearningUnsupervised Learning :Word Embedding十二、Semi-supervised Learning（半监督学习）1、介绍 Supervised learning :{(xr,y^r)}r=1R\begin{Bmatrix}(x^r,\hat{y}^r)\end{Bmatrix}^R_{r = 1}{(xr,y^r)}r=1R，其中xrx^rxr :image,y^r\hat{y}^ry^r:class l.
复制链接

扫一扫