基于潜在空间分数匹配的混合型表格数据合成方法

本文链接：https://blog.csdn.net/weixin_36829761/article/details/140229384

1. 引言

表格数据的合成在数据增强、隐私保护和缺失值填补等方面具有广泛的应用。近年来，表格数据生成技术取得了显著进步，但合成数据与真实数据之间仍存在差距。为了进一步提高生成质量，研究人员开始探索将扩散模型应用于表格数据生成。然而，与图像数据不同，表格数据具有复杂多样的分布和混合的数据类型，这使得扩散模型的应用面临挑战。

与仅包含具有局部空间相关性的连续像素值的图像数据不同，表格数据特征具有复杂且多样的分布 (Xu et al., 2019)，这使得学习多列之间的联合概率变得困难。此外，典型的表格数据通常包含混合数据类型，即连续（例如数值特征）和离散（例如分类特征）变量。标准扩散过程假设具有高斯噪声扰动的连续输入空间，这给分类特征带来了额外的挑战。

现有的解决方案要么使用独热编码或模拟位编码等技术将分类特征转换为数值特征，要么对数值和分类特征采用两个独立的扩散过程。然而，事实证明，简单的编码方法会导致性能欠佳，而为不同数据类型学习单独的模型会使模型难以捕捉不同类型数据的共现模式。

2. TABSYN: 一种通用的表格数据合成方法

为了解决上述挑战，本文提出了 TABSYN，一种基于潜在空间分数匹配的混合型表格数据合成方法。TABSYN 首先将原始表格数据转换为连续的嵌入空间，然后在嵌入空间中学习一个基于分数的扩散模型来捕捉潜在嵌入的分布。

图 2 概述了 TABSYN。在 3.1 节中，我们首先给出表格数据生成任务的正式定义。然后，我们在 3.2 和 3.3 节介绍了 TABSYN 的自动编码和扩散过程的设计细节。我们在附录 A 中总结了训练和采样算法。

2.1 TABSYN 的自动编码器设计

表格数据是高度结构化的，具有不同含义且相互高度依赖的混合类型列特征。这些特征使得设计一个近似编码器来建模和有效利用列之间的丰富关系变得具有挑战性。受 Transformer 在表格数据分类/回归任务中取得成功的启发，我们首先为每一列学习一个独特的标记器，然后将标记（列）级表示输入到 Transformer 中，以捕捉列之间错综复杂的关系。

特征标记器：特征标记器将每一列（包括数值列和分类列）转换为一个 $d$ 维向量。首先，我们使用独热编码对分类特征进行预处理。然后，我们对数值列应用线性变换，并为分类列创建一个嵌入查找表，其中每个类别都被分配一个可学习的 $d$ 维向量，即

$\begin{aligned} e_{i}^{\text {num }} &=x_{i}^{\text {num }} \cdot w_{i}^{\text {num }}+b_{i}^{\text {num }}, \\ e_{i}^{\text {cat }} &=x_{i}^{\text {oh }} \cdot W_{i}^{\text {cat }}+b_{i}^{\text {cat }}, \end{aligned}$

其中 $w_{i}^{\text {num }} \in \mathbb{R}^{1 \times d}, b_{i}^{\text {num }} \in \mathbb{R}^{1 \times d}, W_{i}^{\text {cat }} \in \mathbb{R}^{C_{i} \times d}, b_{i}^{\text {cat }} \in \mathbb{R}^{1 \times d}$ 是标记器的可学习参数。现在，每条记录都被表示为所有列嵌入的堆叠：

$E=\left[e_{1}^{\text {num }}, \cdots, e_{M_{\text {num }}}^{\text {num }}, e_{1}^{\text {cat }}, \cdots, e_{M_{\text {cat }}}^{\text {cat }}\right] \in \mathbb{R}^{M \times d}.$

Transformer 编码和解码：与典型的变分自动编码器（VAE）一样，我们使用编码器来获得潜在变量的均值和对数方差。然后，我们使用重参数化技巧获得潜在嵌入。然后，潜在嵌入通过解码器，以获得重构的标记矩阵 $\hat{E} \in \mathbb{R}^{M \times d}$ 。详细的架构见附录 D。

反标记器：最后，我们将反标记器应用于恢复的每一列的标记表示，以重构列值。反标记器的设计与标记器是对称的：

$\begin{aligned} \hat{x}_{i}^{\text {num }} &=\hat{e}_{i}^{\text {num }} \cdot \hat{w}_{i}^{\text {num }}+\hat{b}_{i}^{\text {num }} \in \mathbb{R}^{1 \times 1}, \\ \hat{x}_{i}^{\text {oh }} &=\operatorname{Softmax}\left(\hat{e}_{i}^{\text {cat }} \cdot \hat{W}_{i}^{\text {cat }}+\hat{b}_{i}^{\text {cat }}\right) \in \mathbb{R}^{d \times C_{i}}, \\ \hat{x} &=\left[\hat{x}_{1}^{\text {num }}, \cdots, \hat{x}_{M_{\text {num }}}^{\text {num }}, \hat{x}_{1}^{\text {oh }}, \cdots, \hat{x}_{M_{\text {cat }}}^{\text {oh }}\right], \end{aligned}$

其中 $\hat{w}_{i}^{\text {num }} \in \mathbb{R}^{d \times 1}, \hat{b}_{i}^{\text {num }} \in \mathbb{R}^{1 \times 1}, \hat{W}_{i}^{\text {cat }} \in \mathbb{R}^{d \times C_{i}}, \hat{b}_{i}^{\text {cat }} \in \mathbb{R}^{1 \times C_{i}}$ 是反标记器的参数。

使用自适应权重系数进行训练：VAE 模型通常使用经典的证据下界（ELBO）损失函数进行学习，但在这里我们使用 β-VAE，其中系数 β 平衡了重构损失和 KL 散度损失的重要性：

$\mathcal{L}=\ell_{\text {recon }}(x, \hat{x})+\beta \ell_{\mathrm{kl}}.$

$\ell_{\text {recon }}$ 是输入数据与重构数据之间的重构损失， $\ell_{\mathrm{kl}}$ 是正则化潜在空间均值和方差的 KL 散度损失。在 vanilla VAE 模型中，β 设置为 1，因为这两个损失项对于从高斯噪声生成高质量的合成数据同等重要。然而，在我们的模型中，β 预计会更小，因为我们不需要嵌入的分布精确地遵循标准高斯分布，因为我们还有一个额外的扩散模型。因此，我们建议在训练过程中自适应地调整 β 的规模，鼓励模型在保持适当嵌入形状的同时实现更低的重构误差。

2.2 TABSYN 的潜在空间扩散模型

在 VAE 模型训练完成后，我们通过编码器提取潜在嵌入，并将编码器的输出扁平化为 $\text{Flatten}(\text{Encoder}(x)) \in \mathbb{R}^{1 \times M d}$ ，以便记录的嵌入是一个向量而不是矩阵。为了学习嵌入 $p (z)$ 的潜在分布，我们考虑以下前向扩散过程和反向采样过程：

$\begin{aligned} z_{t} &=z_{0}+\sigma(t) \varepsilon, \quad \varepsilon \sim \mathcal{N}(0, I), \quad \text { (前向过程) } \\ \mathrm{d} z_{t} &=-2 \dot{\sigma}(t) \sigma(t) \nabla_{z_{t}} \log p\left(z_{t}\right) \mathrm{d} t+\sqrt{2 \dot{\sigma}(t) \sigma(t)} \mathrm{d} \omega_{t}, \quad \text { (反向过程) } \end{aligned}$

其中 $z_{0} = z$ 是来自编码器的初始嵌入， $z_{t}$ 是时间 $t$ 时的扩散嵌入， $\sigma(t)$ 是噪声水平。在反向过程中， $\nabla_{z_{t}} \log p_{t}\left(z_{t}\right)$ 是 $z_{t}$ 的分数函数， $\omega_{t}$ 是标准维纳过程。扩散模型的训练是通过去噪分数匹配实现的：

$\mathcal{L}=\mathbb{E}_{z_{0} \sim p\left(z_{0}\right)} \mathbb{E}_{t \sim p(t)} \mathbb{E}_{\varepsilon \sim \mathcal{N}(0, I)}\left\|\epsilon_{\theta}\left(z_{t}, t\right)-\varepsilon\right\|_{2}^{2}, \quad \text { 其中 } z_{t}=z_{0}+\sigma(t) \varepsilon,$

其中 $\epsilon_{\theta}$ 是一个神经网络（称为去噪函数），用于使用扰动数据 $x_{t}$ 和时间 $t$ 来逼近高斯噪声。然后 $\nabla_{z_{t}} \log p\left(z_{t}\right)=-\epsilon_{\theta}\left(z_{t}, t\right) / \sigma(t)$ 。模型训练完成后，可以通过公式 (6) 中的反向过程获得合成数据。TABSYN 的详细算法描述见附录 A。详细推导见附录 B。

噪声水平 $\sigma(t)$ 的调度：噪声水平 $\sigma(t)$ 定义了在不同时间步长扰动数据的噪声规模，并显著影响最终微分方程解的轨迹。根据 Karras 等人 (2022) 的建议，我们将噪声水平设置为 $\sigma(t) = t$ ，即噪声水平随时间线性变化。我们在命题 1 中表明，线性噪声水平调度导致反向过程中最小的逼近误差：

命题 1：考虑公式 (6) 中从 $z_{t_{b}}$ 到 $z_{t_{a}}$ 的反向扩散过程（ $t_{b} > t_{a}$ ），当 $\sigma(t) = t$ 时，数值解 $\hat{z}_{t_{a}}$ 与 $z_{t_{a}}$ 的逼近误差最小。

证明见附录 C。命题 1 的一个自然推论是，较小的逼近误差允许我们增加两个时间步长之间的间隔，从而减少采样的总步数并加速采样。在第 4 节中，我们证明了通过这种设计，TABSYN 可以在不到 20 次函数评估（NFE）的情况下生成高质量的合成表格数据，这比其他基于扩散的表格数据合成方法要少得多。

3. 实验结果

为了评估 TABSYN 的性能，我们在六个真实世界的表格数据集上进行了实验，并与七种现有的表格数据生成方法进行了比较。实验结果表明，TABSYN 在以下方面优于现有方法：

低阶统计量估计：TABSYN 在列密度估计和列间相关性估计方面均优于所有基线方法。
下游任务性能：TABSYN 在机器学习效率和缺失值填补等下游任务上也取得了具有竞争力的性能。

4. 结论

本文提出了 TABSYN，一种用于合成表格数据的通用且有效的方法。TABSYN 利用 VAE 将表格数据映射到潜在空间，然后利用基于扩散的生成模型学习潜在分布。这种方法具有双重优势：

它可以在统一的潜在空间中容纳数值和分类特征，从而促进对其相互关系的更全面理解。
它能够在连续嵌入空间中利用先进的生成模型。

为了解决潜在的挑战，TABSYN 提出了模型设计和训练方法，从而产生高度稳定的生成模型。此外，TABSYN 通过采用多种评估指标来全面比较所提出的方法与现有方法，从而纠正了先前研究中的缺陷，展示了生成样本在捕捉原始数据分布方面的显著质量和保真度。

参考文献

Borisov, V., Deng, Y., Fernandes, E., et al. 2023. Great: Generative representation based augmen-
tation of tabular data. In Proceedings of the 40th International Conference on Machine
Learning, pp. 3127–3143. PMLR.
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. 2002. Smote: synthetic
minority over-sampling technique. Journal of artificial intelligence research, 16, 321–357.
Chen, T., & Guestrin, C. 2016. Xgboost: A scalable tree boosting system. In Proceedings of the
22nd acm sigkdd international conference on knowledge discovery and data mining, pp.
785–794.
Du, W., & Li, F. 2024. A survey on the evaluation of synthetic tabular data. arXiv preprint
arXiv:2401.01182.
Esser, P., Rombach, R., & Ommer, B. 2021. Taming transformers for high-resolution image
synthesis. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition, pp. 12873–12883.
Fonseca, E., & Bacao, F. 2023. A survey on data augmentation for tabular data. ACM Computing
Surveys (CSUR), 56(3), 1–34.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., et al. 2014. Generative adversarial nets. In Advances
in neural information processing systems, pp. 2672–2680.
Gorishniy, Y., Rubachev, I., Malykh, V., & Mishkin, A. 2021. Revisiting deep learning models
for tabular data. Advances in Neural Information Processing Systems, 34, 13618–13630.
Hernandez, A., Medina-Pérez, J. A., & García, S. 2022. A survey on synthetic tabular data
generation. arXiv preprint arXiv:2208.01468.
Higgins, I., Matthey, L., Pal, A., et al. 2016. beta-vae: Learning basic visual concepts with a
constrained variational framework. arXiv preprint arXiv:1611.01848.
Ho, J., Jain, A., & Salimans, T. 2020. Denoising diffusion probabilistic models. Advances in
Neural Information Processing Systems, 33, 6840–6851.
Karras, T., Aittala, M., Hellsten, J., et al. 2022. Elucidating the design space of diffusion-based
generative models. arXiv preprint arXiv:2206.00364.
Kim, M., Kim, H., Oh, S., et al. 2022. Diffusion-based generative model for synthetic tabular
data. arXiv preprint arXiv:2209.11179.
Kim, M., Kim, H., Oh, S., et al. 2023. Stasy: Spatio-temporal representation learning for synthetic
tabular data generation. arXiv preprint arXiv:2302.09378.
Kingma, D. P., & Welling, M. 2013. Auto-encoding variational bayes. arXiv preprint
arXiv:1312.6114.
Kotelnikov, I., Lisitsin, E., Malyukov, V., et al. 2023. Tabddpm: Modelling tabular data with
diffusion models. In International Conference on Learning Representations.
Lee, S., Rahimi, A., & Teh, Y. W. 2023. Codi: Contextual diffusion for synthetic tabular data. arXiv
preprint arXiv:2306.07488.

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一种名为TABSYN的方法，旨在解决合成表格数据生成中的挑战。具体来说，它试图解决以下问题：

数据类型混合：表格数据通常包含连续（数值型）和离散（类别型）数据，这使得直接应用扩散模型变得复杂，因为扩散模型通常假设输入空间是连续的。

数据分布复杂多变：表格数据的特征具有复杂且多变的分布，这使得学习多列之间的联合概率变得困难。

现有方法的局限性：现有的表格数据生成方法在处理混合数据类型时存在局限性，例如，简单的编码方法（如独热编码）可能导致次优性能，而为不同类型的数据学习单独的模型则难以捕捉不同数据类型的共现模式。

为了解决这些问题，TABSYN提出了一种在变分自编码器（VAE）构建的潜在空间内利用扩散模型的方法。这种方法的关键优势包括：

通用性：能够处理广泛的数据类型，通过将它们转换到统一的空间并显式捕捉列间关系。

质量：通过优化潜在嵌入的分布来提高扩散模型的训练质量，从而生成高质量的合成数据。

速度：与现有的基于扩散的方法相比，需要更少的逆向步骤和更快的合成速度。

论文通过广泛的实验验证了TABSYN在多个数据集上的性能，展示了其在列分布估计和列间相关性估计任务中相较于现有方法的显着改进。此外，TABSYN在下游任务（如机器学习效率和缺失值插补）中也表现出了竞争力。

Q: 有哪些相关研究？

A: 这篇论文提到了多个与表格数据生成相关的研究工作，主要包括以下几个方面：

深度生成模型：研究者们提出了多种基于生成对抗网络（GAN）和变分自编码器（VAE）的表格数据生成方法，如CTGAN和TVAE，这些方法在处理不平衡的类别特征方面取得了一定的进展。

高级方法：近年来，研究者们提出了更先进的方法，如GOGGLE，它通过图神经网络（GNN）来建模列之间的依赖关系；GReaT，它将表格数据的每一行转换为自然语言句子并学习句子级分布；以及STaSy、TabDDPM和CoDi，这些方法同时引入了扩散模型来生成合成表格数据。

潜在空间生成建模：虽然在数据空间中的生成模型取得了显着成功，但在潜在空间中的生成模型展示了更紧凑和解耦的表示、对噪声的鲁棒性以及在控制生成风格方面更大的灵活性。例如，最近在图像生成中取得成功的潜在扩散模型（LDM）也启发了其在视频和音频数据中的应用。

扩散模型：物理扩散过程启发了深度学习中的许多先进研究，例如DIFFormer开发了一种可扩展的Transformer模型用于几何数据，而去噪扩散模型在图像生成中取得了巨大成功。

这些相关研究为TABSYN方法提供了理论和技术基础，同时也为论文的实验部分提供了对比基准。论文通过与这些现有方法的比较，展示了TABSYN在合成表格数据生成任务中的优越性能。

Q: 论文如何解决这个问题？

A: 论文提出了一个名为TABSYN的方法来解决表格数据合成的问题。这个方法包含以下几个关键步骤：

数据预处理：首先，对原始表格数据进行预处理，包括处理缺失值和标准化数据。

特征转换：将表格数据的每列（无论是数值型还是类别型）转换为一个连续的嵌入空间。这通过为每列学习一个独特的tokenizer来实现，然后将token级别的表示输入到Transformer中以捕获列之间的关系。

变分自编码器（VAE）：设计了一个专门为表格结构数据定制的VAE模型。这个VAE模型包括Transformer架构的编码器和解码器，用于建模列间关系并获取token级别的表示。此外，还设计了一个自适应损失权重机制，动态调整重建损失和KL散度权重，以在保持嵌入空间正则化的同时逐步提高重建性能。

扩散模型：在VAE的潜在空间中学习一个基于分数的扩散模型。这个模型通过一个简化的正向扩散过程来添加高斯噪声，并在反向过程中通过去噪分数匹配来训练。

采样算法：在训练好扩散模型后，可以通过反向过程从潜在空间生成高质量的合成数据。这个过程涉及到从潜在空间的噪声分布中采样，并逐步去除噪声以恢复数据。

实验评估：通过在多个数据集上的实验，使用多种评估指标（如列分布估计、列间相关性估计、机器学习效率和缺失值插补）来验证TABSYN的性能。实验结果表明，TABSYN在这些任务中均优于现有方法。

消融研究和可视化：通过消融研究来验证模型设计的有效性，并通过可视化来展示合成数据的分布与真实数据的相似性。

总的来说，TABSYN通过将表格数据映射到一个连续的潜在空间，并在这个空间中应用扩散模型，成功地解决了表格数据合成中的挑战。这种方法不仅能够处理混合类型的数据，还能够生成高质量的合成数据，并且具有较快的合成速度。

Q: 论文做了哪些实验？

A: 论文进行了广泛的实验来评估TABSYN方法的性能，并与现有的表格数据生成方法进行比较。实验的主要内容包括：

数据集选择：选择了六个包含数值型和类别型特征的真实世界表格数据集，包括Adult、Default、Shoppers、Magic、Beijing和News。这些数据集涵盖了分类和回归任务。

基线方法：与七种现有的表格数据生成方法进行了比较，包括CTGAN、TVAE、GOGGLE、GReaT、STaSy、TabDDPM和CoDi。这些方法代表了当前最先进的技术。

评估指标：使用了多种评估指标来衡量合成数据的质量，包括：

低阶统计量（单列密度估计和成对列相关性估计）。

高阶度量（α-Precision和β-Recall分数）。

隐私保护（最近邻记录距离，DCR）。

下游任务性能（机器学习效率和缺失值插补）。

实验结果：通过实验结果展示了TABSYN在不同任务上的性能。特别是在单列密度估计和成对列相关性估计任务中，TABSYN显着优于其他方法，平均降低了错误率86%和67%。

消融研究：进行了消融研究来验证TABSYN中各个组件的有效性，例如自适应β-VAE、线性噪声水平和不同的编码/扩散方法。

可视化：通过可视化合成数据的分布与真实数据的分布，进一步展示了TABSYN在捕捉数据分布方面的能力。

代码可用性：提供了TABSYN的代码，以便研究社区可以复现和验证实验结果。

这些实验不仅证明了TABSYN在合成表格数据方面的优势，还展示了其在多种评估指标和下游任务中的鲁棒性和有效性。

Q: 有什么可以进一步探索的点？

A: 尽管TABSYN在表格数据合成方面取得了显着的成果，但仍有一些潜在的研究方向可以进一步探索：

条件生成：虽然TABSYN专注于无条件数据生成，但研究如何根据给定的条件（例如特定的列值或数据子集）生成合成数据也是一个有价值的方向。

更复杂的数据类型：表格数据可能包含更复杂的数据类型，如文本、图像或时间串行数据。将TABSYN扩展到这些类型的数据可能需要进一步的创新。

隐私保护机制：虽然TABSYN在隐私保护方面表现出色，但研究更先进的隐私保护技术，如差分隐私或联邦学习，以确保生成的数据不会泄露敏感信息，仍然是一个重要的研究方向。

模型解释性：提高模型的可解释性，以便用户可以理解和信任生成的数据，这对于实际应用中的模型部署至关重要。

更高效的训练和采样：尽管TABSYN的采样速度已经相对较快，但进一步优化模型的训练和采样过程，以减少计算资源的需求，仍然是一个值得探索的问题。

跨域数据生成：研究如何有效地在不同领域之间生成数据，例如在医疗数据和金融数据之间进行转换，这可能需要开发新的域适应技术。

模型鲁棒性：研究模型在面对数据污染、噪声和异常值时的鲁棒性，以及如何提高模型在这些情况下的性能。

实际应用：将TABSYN应用于实际问题，如数据增强、数据清洗和数据集成，以验证其在现实世界中的有效性和实用性。

开源社区贡献：通过开源社区的反馈和贡献，不断改进TABSYN，使其更加健壮和易于使用。

这些研究方向不仅可以推动表格数据合成技术的发展，还可以为相关领域的研究者提供新的工具和方法。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了一种名为TABSYN的新型方法，用于合成表格数据。以下是论文的主要内容总结：

问题定义：表格数据合成在数据增强、隐私保护和缺失值填充等领域具有重要应用。然而，由于表格数据的混合数据类型和复杂分布，现有的生成模型难以直接应用于表格数据。

方法提出：为了解决这些问题，论文提出了TABSYN，这是一种在VAE构建的潜在空间内应用扩散模型的方法。TABSYN通过将原始表格数据转换为连续的嵌入空间，然后在这个空间中学习扩散模型来捕获数据的分布。

关键优势：

通用性：能够处理包括数值型和类别型在内的多种数据类型。

质量：通过优化潜在嵌入的分布，提高了生成数据的质量。

速度：与现有方法相比，TABSYN需要更少的逆向步骤，从而加快了数据合成的速度。

实验评估：在六个真实世界的表格数据集上进行了广泛的实验，使用多种评估指标（包括低阶和高阶统计量、隐私保护和下游任务性能）来比较TABSYN与其他七种最新方法。实验结果表明，TABSYN在多个任务上均优于现有方法。

消融研究：通过消融研究验证了TABSYN中各个组件的有效性，如自适应β-VAE、线性噪声水平和不同的编码/扩散方法。

可视化分析：通过可视化合成数据的分布与真实数据的分布，进一步展示了TABSYN在捕捉数据分布方面的能力。

代码开源：论文提供了TABSYN的代码，以便研究社区可以复现和验证实验结果。

总的来说，TABSYN为表格数据合成提供了一种新的、有效的方法，它在处理混合数据类型、提高生成数据质量和加速合成过程方面展现出显着的优势。