半监督生成式学习（Semi-Supervised Generative Learning）

最新推荐文章于 2025-03-10 12:09:48 发布

十里清风

最新推荐文章于 2025-03-10 12:09:48 发布

阅读量3.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/sinat_34072381/article/details/105835809

版权

机器学习专栏收录该内容

23 篇文章

订阅专栏

本文探讨了半监督学习的概念，包括聚类假设和流型假设，并对比了生成式和判别式模型的区别。深入解析了高斯混合模型(GMM)的参数估计，通过EM算法进行迭代优化，适用于处理大量未标记数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Semi-Supervised Learning
Generative and Discriminative Model
Likelihood Function of Gaussian Mixture Model
Parameter Estimation

Semi-Supervised Learning

半监督学习, 针对标记样本数量不足，寻找充分利用未标记样本的方法. 半监督学习一般两个基本假设：

聚类假设：处于相同聚类的样本更可能具有相同标记；
流型假设：处于很小的局部区域的样本更相似，更可能具有相同标记；

Generative and Discriminative Model

判别式学习对条件概率建模
$y^* = \arg\max_yp(y|\pmb x)$
生成式学习对联合概率建模
$y^* = \arg\max_y p(y|\pmb x) = \arg\max_y\frac{p(\pmb x|y)p(y)}{p(\pmb x)} = \arg\max_yp(\pmb x|y)p(y)$
生成式假定样本数据服从某一潜在分布（模型泛化能力强），需要充分可靠的知识.

Likelihood Function of Gaussian Mixture Model

高斯混合模型的概率密度函数
$p(\pmb x|\Theta) =\sum_k p(\pmb x|\theta_k)p(\theta_k)=\sum_k\alpha_kp(\pmb x|\theta_k)$
采用最大后验概率预测 $\pmb x$ 的标记， $\mathcal Y=\{1, 2, \cdots, K\}$ ，则
$\begin{aligned} f(\pmb x)=\arg\max_{y\in\mathcal Y}p(y|\pmb x)=\arg\max_{y\in\mathcal Y}\sum\nolimits_kp(y, \theta_k|\pmb x)=\arg\max_{y\in\mathcal Y}\sum\nolimits_kp(y|\theta_k,\pmb x)p(\theta_k|\pmb x) \end{aligned}$

式中

$p(y|\theta_k,\pmb x)$ ，表示 $\pmb x$ 由第 $k$ 个分布生成且标记为 $y$ 的概率，当且仅当 $y = k$ 时，概率为1；
$p(\theta_k|\pmb x)$ ，表示 $\pmb x$ 由第 $k$ 个分布生成的后验概率，利用大数据量的未标记数据可提高该概率的准确率；

若类簇与真实类别一一对应，标记样本 $\pmb x\in D_l$ ，仅属于特定簇，则
$p_{D_l}(\pmb x, y=i|\Theta)=\alpha_ip(\pmb x|\theta_i)=\sum_k\alpha_kp(\pmb x|\theta_k)p(y=i|\theta_k,\pmb x)$
上式中仅当 $i = k$ 时， $p(y=k|\theta_i, \pmb x)$ 为1，否则为0. 无标记样本 $\pmb x\in D_u$ ，可能属于任何类簇，则
$p_{D_u}(\pmb x|\Theta)=\sum_k\alpha_kp(\pmb x|\theta_k)$
对数似然函数
$\begin{aligned} L(\Theta|D_l\cup D_u) &=L(\Theta|D_l) + L(\Theta|D_u)\\[1ex] &=\sum_{(\pmb x, y)\in D_l}\ln p(\pmb x, y=k|\Theta) + \sum_{(\pmb x, y)\in D_u}\ln p(\pmb x|\Theta)\\[1ex] &=\sum_{(\pmb x, y)\in D_l}\ln \sum_k\alpha_kp(\pmb x|\theta_k)p(y=i|\theta_k,\pmb x) + \sum_{(\pmb x, y)\in D_u}\ln \sum_k\alpha_kp(\pmb x|\theta_k)\\[1ex] \end{aligned}$

Parameter Estimation

GMM的参数估计使用EM算法，即
$\Theta = \max_{\Theta} L(\Theta) = \arg\max_{\Theta}Q(\Theta, \Theta_t) =\arg\max_{\theta}\sum_j\sum_kP(z_k|\pmb x_j,\Theta_t)\ln p(\pmb x_j|z_k,\Theta)p(z_k|\Theta)$
其中隐变量期望，或者样本 $\pmb x_j$ 属于第 $k$ 个分布的概率，即E步
$\lambda_{jk}= p(z_k|\pmb x_j,\Theta_t) =\frac{\alpha_kp(\pmb x_k|\theta_k)}{\sum_kp(\pmb x_k|\theta_k)}$
令 $N_k$ 表示第 $k$ 类有标记的样本数，M步
$\begin{aligned} \pmb\mu_k &=\frac{\sum_{\pmb x_j\in D_u}\lambda_{jk}\pmb x_j+\sum_{(\pmb x_j, y_j)\in D_l\cap y_i=k}\pmb x_j}{N_k + \sum_{\pmb x_j \in D_u}\lambda_{jk}}\\ \pmb\sigma_k^2 &=\frac{\sum_{\pmb x_j\in D_u}\lambda_{jk}(\pmb x_j-\pmb\mu_k)(\pmb x_j-\pmb\mu_k)^T+\sum_{(\pmb x_j, y_j)\in D_l\cap y_i=k}(\pmb x_j-\pmb\mu_k)(\pmb x_j-\pmb\mu_k)^T}{N_k + \sum_{\pmb x_j\in D_u}\lambda_{jk}}\\ \alpha_k &= \frac{1}{N}\left(N_k + \sum_{\pmb x_j \in D_u}\lambda_{jk}\right) \end{aligned}$