TabDDPM: Modelling Tabular Data with Diffusion Models
arxiv [Submitted on 30 Sep 2022]
代码:https://github.com/rotot0/tab-ddpm
摘要
本文介绍了 TabdDPM,这是一种旨在使用扩散模型生成表格数据的新模型,该模型在计算机视觉和语音处理等领域很受欢迎。TabdDPM 之所以独一无二,是因为它可以处理不同类型的数据特征,例如连续和离散的数据特征,因此它适用于各种表格数据集。该模型在生成合成表格数据方面表现优于 GAN 和 VAE 等现有生成模型,这对于数据隐私等任务很有用。作者使用简单的 MLP 架构和正弦时间嵌入对反向过程进行建模,并使用 CatBoost 调整超参数以实现最佳性能。结果表明,TabdDPM 可以生成高质量的合成数据,这些数据对其他分类器和回归器也有效,使其成为研究人员的宝贵工具。
1 INTRODUCTION(引言)
去噪扩散概率模型(DDPM)最近在生成模型社区引起了极大的研究兴趣,因为它们在个体样本的真实性和多样性方面经常超越替代方法。DDPM在自然图像领域展示了最令人印象深刻的成功,其中扩散模型的优势在应用中得到了成功利用,例如着色、修复、分割、超分辨率、语义编辑等。除了计算机视觉,DDPM框架也在其他领域进行了研究,如NLP、波形信号处理、分子图、时间序列等,证明了扩散模型在广泛问题范围内的普适性。
作者工作的目标是理解DDPM的普适性是否可以扩展到通用表格问题的情况,这些问题在各种工业应用中无处不在,包括由一组异构特征描述的数据。对于许多这样的应用,由于现代隐私法规(如GDPR)阻止发布真实用户数据,而由生成模型产生的合成数据可以共享,因此对高质量生成模型的需求尤为迫切。然而,与计算机视觉或NLP相比,训练高质量的表格数据模型可能更具挑战性,因为个体特征的异构性和典型表格数据集的相对较小规模。在该论文中,作者展示了尽管存在这两个复杂性,扩散模型仍然可以成功逼近表格数据的典型分布,从而在大多数基准测试中实现了最先进的性能。
更具体地说,作者工作的主要贡献如下:
-
作者介绍了TabDDPM——一种针对表格问题的最简单的DDPM设计,它可以应用于任何表格任务,并且可以处理包括数值和分类特征在内的混合数据。
-
作者展示了TabDDPM在多个数据集上的性能超越了为表格数据设计的替代方法,包括基于GAN和VAE的模型,并阐明了这种优势的几个来源。
-
作者展示了TabDDPM生成的数据在隐私关注的场景中似乎是一个“甜点”,当合成数据被用来替代不能共享的真实用户数据时。
2 RELATED WORK(相关工作)
扩散模型是一种生成模型范式,旨在通过马尔可夫链的终点逼近目标分布,该链从给定的参数分布开始,通常是一个标准高斯分布。每一步马尔可夫步骤由深度神经网络执行,该网络有效地学习了如何通过已知的高斯核逆转扩散过程。Ho等人展示了扩散模型与得分匹配的等价性,将它们展示为通过迭代去噪过程逐步将简单已知分布转换为目标分布的不同视角。Nichol等人和Dhariwal等人最近开发了更强大的模型架构以及不同的先进学习协议,这导致了DDPM在计算机视觉领域生成质量和多样性方面相对于GAN的优势。在作者的工作中,作者为我们展示了扩散模型也可以成功地用于表格问题。
表格问题的生成模型是机器学习社区当前活跃的研究领域,因为高质量的合成数据对许多表格任务有巨大的需求。首先,表格数据集通常大小有限,与视觉或NLP问题不同,后者在互联网上有大量的“额外”数据可用。其次,适当的合成数据集不包含实际用户数据,因此不受类似GDPR的法规限制,可以公开共享而不会违反匿名性。最近的研究开发了大量模型,包括表格VAE和基于GAN的方法。通过在大量公共基准上的广泛评估,作者展示了他们的TabDDPM模型超越了现有的替代方案,通常有较大的差距。
“浅层”合成生成。与非结构化图像或自然文本不同,表格数据通常是结构化的,即个别特征通常是可解释的,并且不清楚它们的建模是否需要多层“深度”架构。因此,简单的插值技术,如SMOTE(最初提出是为了解决类别不平衡问题),可以作为简单而强大的解决方案,如在Camino等人的研究中展示的,SMOTE在少数类过采样方面超过了表格GAN。在实验中,作者展示了从隐私保护的角度来看,由TabDDPM生成的合成数据优于由插值技术生成的合成数据。
3 BACKGROUND(背景)
论文详细介绍了扩散模型的基本原理和它们是如何应用于数据生成的。扩散模型是基于似然的生成模型,它们通过前向和反向马尔可夫过程来处理数据。具体来说:
- 前向扩散过程:该过程通过逐步添加噪声来逐渐改变初始数据样本,这些噪声是从预定义的分布中采样得到的。这个过程由一系列马尔可夫步骤组成,每一步都由一个深度神经网络执行,以学习如何逆转扩散过程。
- 反向扩散过程:与前向过程相对应,反向过程逐步去噪一个潜在变量,并允许从数据分布中生成新的数据样本。反向过程中的分布通常是未知的,需要通过神经网络进行近似,网络参数通过优化变分下界来从数据中学习。
- 高斯扩散模型:在连续空间中操作,其中前向和反向过程由高斯分布特征化。这部分介绍了如何使用高斯分布来定义数据的扩散和去噪步骤。
- 多项式扩散模型:设计用于生成分类数据,其中数据通过多项式分布进行扩散,通过在类别上均匀添加噪声来破坏数据。
4 TABDDPM
在本节中,作者描述了TabDDPM的设计以及影响模型效果的主要超参数。
TabDDPM使用多项式扩散来模拟分类和二元特征,并使用高斯扩散来模拟数值特征。更具体地说,对于一个表格数据样本 x = [ x n u m , x c a t 1 , . . . , x c a t C ] x = [x_{num}, x_{cat_1}, ..., x_{cat_C}] x=[xnum,xcat1,...,xcatC],它由 N n u m N_{num} Nnum个数值特征 x n u m ∈ R N n u m x_{num} ∈ R^{N_{num}} xnum∈RNnum