PC-GAIN文献总结

最新推荐文章于 2025-04-23 18:08:03 发布

RrS_G

最新推荐文章于 2025-04-23 18:08:03 发布

阅读量2.4k

点赞数 3

文章标签：深度学习机器学习神经网络

本文链接：https://blog.csdn.net/RrS_G/article/details/121832957

版权

PC-GAIN是针对缺失数据的无监督插补方法，通过结合GAIN模型和潜在类别信息提升插补质量。首先，它选择低缺失率样本进行预训练，然后使用聚类生成伪标签。接着，利用这些标签训练分类器，并约束生成器以保留类别信息。实验结果显示，PC-GAIN在多种数据集和高缺失率场景下表现出优于现有方法的性能，尤其在预测精度和图像修复任务中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、摘要

缺少值的数据集在现实世界的应用程序中非常常见。首先介绍一种生成模型GAIN, 是最近提出的一种用于缺失数据的深度生成模型，已经被证明比许多最先进的方法表现得更好。但是GAIN只在生成器中使用重构损耗来最小化非缺失部分的插补误差，忽略了能够反映样本之间关系的潜在类别信息。因此本文提出了一种新的无监督缺失数据的插补方法PC-GAIN，该方法利用潜在的类别信息进一步提高了插补能力。

本文贡献：

1、提出了一种新的条件GAN，利用不完全数据中包含的隐含类别信息进一步提高GAIN的插补质量。仅使用低缺失率数据的子集对于确保伪标签的质量至关重要，并且对模型的性能有重要影响。

2、设计了一种有效的预训练程序，只选取部分低缺失率样本进行插补，从而提高伪标签的质量。

3、设计了辅助分类器和判别器，帮助生成器产生难以区分的插补结果，同时保留更好的类别信息。

4、结果表明，该方法在估计精度和预测精度方面均优于现有方法，尤其是在缺失率较高的情况下。此外，无论类别的实际数量是多少，选择较小的集群数量都可以确保模型在实践中的最佳性能，这一特性使该方法更加灵活。

二、模型介绍

$\chi = \{{x^1,x^2,...,x^N}\} \in R^d$ 表示一个不完整数据集。对于每一个 $x \in \chi$ 都有一个对应的二值掩模向量 $m = \{0,1\}^d$ ，其中如果特征 $x_i$ 被观察到则 $m_i = 1$ ；如果特征 $x_i$ 缺失，则 $m_i = 0$ 。

1、GAIN

首先介绍GAIN，在GAIN中，生成器G将不完整样本x、掩码向量m和噪声源作为输入，输出完整样本，然后鉴别器D尝试分辨哪些是观测到的，哪些是输入的。

GAIN中生成器G的输出可以表示为：

$x_G = G(x, m, (1-m)\bigodot z).$ (1)

其中z是一个d维的噪声， $\bigodot$ 表示Hadamard product. 所以重建的样本可以表示为

$x_R = m \bigodot x + (1 - m) \bigodot x_G$ (2)

辨别器D的输出是一个二值向量，可以表示为

$m_D = D(x_R, h)$ (3)

其中h是一个提示向量， $m_D$ 是掩码向量m的预测。

因此GAIN的目标函数可以表示为

$\mathop{\min}\limits_{D}\frac{1}{N}\sum_{k=1}^{N}L_D(m^k,m_D^k)\\ \mathop{\min}\limits_{G}\frac{1}{N}\sum_{k=1}^{N}(L_G(m^k,m_D^k)+\alpha L_R(x_k,x_R^k))$ (4)

其中 $\alpha$ 是权重参数， $L_D$ 是交叉熵损失， $L_R$ 是一个重建损失：

$L_D(m,m_D) = -mlogm_D-(1-m)log(1-m_D)$ (5)

$L_G(m,m_D) = -(1-m)logm_D$ (6)

$L_R(x,x_R) = \sum_{i=1}^{d}m_i\pounds_R(x_i,x_{R,i})$ (7)

而

$\pounds_R(x_i,x_{R,i})=\left\{\begin{equation} &(x_i-x_{R,i})^2, \qquad for\,numerical\,variable & \\ &-x_ilogx_{R,i} , \qquad for\,categorial\,variable & \end{equation}\right.$ . (8)

2、PC-GAIN

众所周知，标签等条件信息可以增强生成器的性能。然而，将现有条件技术应用于常见的插补问题主要面临两个困难。第一，大多数插补问题是完全没有监督的，没有明确的标签可以直接使用。第二，由于数据不完整，特别难以为样本合成合适的伪标签。为解决这些困难提出了基于GAIN的PC-GAIN。

PC-GAIN的流程概括：

1、首先选择低缺失率样本(低缺失率样本中包含的潜在类别信息更可靠)对生成器G和判别器D进行预训练，得到插补数据集。

2、然后，利用聚类算法对插补数据集进行伪标签合成。

3、利用插补数据集和伪标签训练分类器。

4、最后，使用所有的训练数据来训练生成器G和鉴别器D，同时使用预处理的分类器来约束生成器。

下面详细描述PC-GAIN的方法流程：

首先选择低缺失率样本子集：对于任意x，计算它的缺失率r(x)：

$r(x) = \frac{1}{d}\sum_{i=1}^{d}m_i$ (9)

其中m是数据的掩码向量。

然后根据缺失率做一个升序排序，选择前λN(0 < λ < 1)的样本作为预训练的数据集 $x^L$ 。

接着根据目标函数(4)，用数据集 $x^L$ 预训练生成器G和辨别器D可以得到数据集 $x^L$ 的插补数据集 $x^L_R$ ，然后对插补数据集 $x^L_R$ 应用一种聚类算法合成伪标签 $\{p_R^L\}$ 。(有一点值得指出的是，聚类的类别数量不需要与实际类别的数量一致。作者在实验中发现对于许多UCI数据集，K在4到6之间就足以保证模型的最佳性能。)

然后用 $\{x^L_R\}$ 和对应的伪标签 $\{p_R^L\}$ 来训练辅助分类器C。在分类器的帮助下，再次更新生成器G和判别器D。也就是说，要求生成器不仅输出不可区分的输入数据，而且学习不同的类别特征。更具体地说，鉴别器和生成器的目标现在变成

$\mathop{\min}\limits_{D}\frac{1}{N}\sum_{k=1}^{N}L_D(m^k,m_D^k)\\ \mathop{\min}\limits_{G}\frac{1}{N}\sum_{k=1}^{N}(L_G(m^k,m_D^k)+\alpha L_R(x_k,x_R^k)+\beta L_C(x_R^k))$ (10)