定义
半监督学习:存在无标签数据,通常需要一些假设
生成式模型
EM算法
Step1: 计算无标签数据先验概率
P
θ
(
C
1
∣
x
u
)
P_{\theta}\left(C_{1} | x^{u}\right)
Pθ(C1∣xu)Step2:更新模型
Low density separation
self-training
Repeat:
- 用已有标签数据训练模型
- 用模型去得到无标签数据的pseudo-label
- 将一些无标签数据添加到有标签数据中
如果使用神经网络,soft label无效
Entropy-based 正则化
E
(
y
u
)
=
−
∑
m
=
1
5
y
m
u
ln
(
y
m
u
)
E\left(y^{u}\right)=-\sum_{m=1}^{5} y_{m}^{u} \ln \left(y_{m}^{u}\right)
E(yu)=−m=1∑5ymuln(ymu)
Entropy尽可能小
L
=
∑
x
r
C
(
y
r
,
y
^
r
)
+
λ
∑
x
u
E
(
y
u
)
\begin{aligned} L =\sum_{x^{r}} C\left(y^{r}, \hat{y}^{r}\right) +\lambda \sum_{x^{u}} E\left(y^{u}\right) \end{aligned}
L=xr∑C(yr,y^r)+λxu∑E(yu)
半监督SVM
穷举所有可能的标签
每种可能做一个SVM
选择largest margin和least error
Smoothness假设
connected by a high density path
Cluster and then label
Grapg-based Approach
- 定义相似度
- 建图
- KNN
- e-Neighborhood
- Edge Weight 和相似度成比例
高斯半径基函数 s ( x i , x j ) = exp ( − γ ∥ x i − x j ∥ 2 ) s\left(x^{i}, x^{j}\right)=\exp \left(-\gamma\left\|x^{i}-x^{j}\right\|^{2}\right) s(xi,xj)=exp(−γ∥∥xi−xj∥∥2)
优点:传递性
定义smoothness
:两两之间的标签差平方加权
S
=
1
2
∑
i
,
j
w
i
,
j
(
y
i
−
y
j
)
2
=
y
T
L
y
S=\frac{1}{2} \sum_{i, j} w_{i, j}\left(y^{i}-y^{j}\right)^{2} = y^TLy
S=21i,j∑wi,j(yi−yj)2=yTLy 其中,L是graph Laplacian = D - W
最终的目标函数
L
=
∑
x
r
C
(
y
r
,
y
^
r
)
+
λ
S
L=\sum_{x^{r}} C\left(y^{r}, \hat{y}^{r}\right)+\lambda S
L=xr∑C(yr,y^r)+λS后面一项类似正则化