- Semi-supervised Learning
- Unsupervised Learning :Word Embedding
十二、Semi-supervised Learning(半监督学习)
1、介绍
Supervised learning : { ( x r , y ^ r ) } r = 1 R \begin{Bmatrix} (x^r,\hat{y}^r) \end{Bmatrix}^R_{r = 1} {
(xr,y^r)}r=1R,其中 x r x^r xr :image, y ^ r \hat{y}^r y^r:class labels;
Supervised learning有一大堆training data,组成是一个function的input和output;
Semi-Supervised learning : { ( x r , y ^ r ) } r = 1 R \begin{Bmatrix} (x^r,\hat{y}^r) \end{Bmatrix}^R_{r = 1} {
(xr,y^r)}r=1R, { x u } u = R R + U \begin{Bmatrix} x^u \end{Bmatrix}^{R+U}_{u = R} {
xu}u=RR+U
Semi-Supervised learning :(1)在labeled data上有另一组unlabeled的data,即 x u x^u xu,只有function的input,没有output;(2)一般,希望unlabeled的数量远大于labeled的数量,即U>>R;(3)Semi-Supervised learning 可以分成两种:Transductive learning(导入学习)、Inductive learning(归纳学习),在做Transductive learning时unlabeled data 就是testing data,在做时Inductive learningunlabeled data 不是testing data。
为什么要做Semi-Supervised learning ?
收集数据容易,但是搜集labeled的数据不容易
2、Semi-Supervised learning for Generative Model
Supervised Generative Model:labeled training examples x r ∈ C 1 , C 2 x^r\in C_1,C_2 xr∈C1,C2,已知这些data分别属于class 1 还是class 2,会去估测prior probability P ( C i ) P(C_i) P(Ci)以及class-dependent probability P ( x ∣ C i ) P(x|C_i) P(x∣Ci);假设每个class的分布都是Gaussian distribution:
有了这些数据 P ( C 1 ) , P ( C 2 ) , μ 1 , μ 2 , Σ P(C_1),P(C_2),\mu^1,\mu^2,\Sigma P(C1),P(C2),μ1,μ2,Σ,就可以求一个新的data属于 C 1 C_1 C1还是 C 2 C_2 C2的概率,就可以做Classification,决定boundary的位置:
但是如果给了unlabeled data,就会影响这个决定。假设下图绿色的点为unlabeled data的话,它们分布的形状也会发生改变:
Semi-Supervised Generative Model:首先初始化一组参数
θ = { P ( C 1 ) , P ( C 2 ) , μ 1 , μ 2 , Σ } \theta = \begin{Bmatrix} P(C_1),P(C_2),\mu^1, \mu^2,\Sigma \end{Bmatrix} θ={
P(C1),P(C2),μ1,μ2,Σ};
(1)第一步,估算每一笔unlabeled data属于class 1的posterior probability P θ ( C 1 ∣ x u ) P_\theta (C_1| x^u)