半监督
少量有标注,大量无标注
1.三个假设:
(1)连续性/平滑性假设:相近的数据点可能有相同的标签
(2)集群假设:在分类问题中,数据往往被组织成高密度的集群,同一集群的数据点可能具有相同的标签。因此,决策边界不应该位于密集的数据点区域;相反,它应该位于高密度区域之间,将它们分离成不连续的群组。
(3)流形假设:高纬数据分布可以在一个嵌入式的低纬空间中表示。这个低纬空间被称为数据流形。
2.方法:
(1)一致性正则化:
核心动机:利用连续性和集群假设
具体操作:对于一个给定的特征x,我们的模型应该对潜在Augment(x)半径内的所有数据点做出类似的预测。即加扰动不影响输出。(我们选中x。那么x和x周围的类别是一致的)
实现方法:
正规全监督+
x
i
x_i
xi 和
x
i
x_i
xi附近 的数据点的差距(差距不大)
l
o
s
s
=
{
C
r
o
s
s
E
n
t
r
o
p
y
(
x
i
,
y
i
)
+
∥
f
θ
(
x
i
)
−
f
θ
(
A
u
g
m
e
n
t
(
x
i
)
)
∥
2
2
,
x
i
∈
X
l
a
b
e
l
e
d
∥
f
θ
(
x
i
)
−
f
θ
(
A
u
g
m
e
n
t
(
x
i
)
)
∥
2
2
,
x
i
∈
X
u
n
l
a
b
l
e
d
\left.loss=\left\{\begin{matrix}CrossEntropy(x_i,y_i)+\|f_\theta(x_i)-f_\theta(Augment(x_i))\|_2^2,x_i\in X_{labeled}\\\|f_\theta(x_i)-f_\theta(Augment(x_i))\|_2^2,x_i\in X_{unlabled}\end{matrix}\right.\right.
loss={CrossEntropy(xi,yi)+∥fθ(xi)−fθ(Augment(xi))∥22,xi∈Xlabeled∥fθ(xi)−fθ(Augment(xi))∥22,xi∈Xunlabled
(2)伪标签
核心动机:把半监督问题转换成全监督
具体操作:想办法得到伪标签
(3)生成对抗网络
核心动机:用鉴别器找到值得信赖的区域
(4)主动学习
核心动机:识别哪些未标记的点是最有价值的,由人在循环中进行标记。