1.半监督的生成模型
面对的问题
如下所示,绿色的点表示没有标签的样本。蓝色和橘色分别表示有标签的样本,分别是C1,C2。我们之前根据标签的数据,给每一类计算出了先验概率P(C1)、P(C2)、均值和协方差。(假设服从高斯分布)。但是,如今有了很多的无标签的数据,我们就不能按照原来的类概率、均值和协方差来估计数据。因为无标签的数据会影响概率和参数。那么我们应该如何计算呢?
解决思路:
step1:有监督的生成模型:首先我们使用有标签的数据来训练模型,初始化参数。
Step2:无监督的生成模型:
- E步:基于上述训练出的模型,计算无标签数据的后验概率( P θ ( C 1 ∣ x u ) P_\theta(C1|x^u) Pθ(C1∣x