论文粗读系列-6：TabCSDI-CSDN博客

本文链接：https://blog.csdn.net/ileln/article/details/136685228

本文探讨了如何在表格数据中应用扩散模型进行缺失值插补，特别是通过作者提出的TabCSDI方法。该方法关注分类变量和数值变量的处理，介绍了one-hot编码、模拟比特编码和特征标记化的嵌入技术。实验证明了TabCSDI的有效性。

摘要由CSDN通过智能技术生成

论文粗读系列-6

Diffusion models for missing value imputation in tabular data

1.简介

NiPS 2022 workshop

链接：[2210.17128] Diffusion models for missing value imputation in tabular data (arxiv.org)

机器学习中的缺失值插补是利用可用信息准确估计数据集中缺失值的任务。

在这项任务中，已经提出了几种深度生成建模方法并证明了它们的实用性，例如生成对抗imputation网络。近年来，扩散模型因其在图像、文本、音频等生成建模任务中的有效性而获得了广泛的应用。在之前，很少有人关注扩散模型对表格数据中缺失值的有效性的研究。基于时间序列数据输入扩散模型的最新发展，作者提出了一种名为“基于条件分数的表格数据扩散模型”(TabCSDI)的扩散模型方法。为了有效地同时处理分类变量和数值变量作者研究了三种技术:单热编码、模拟比特编码和特征标记化。在基准数据集上的实验结果证明了TabCSDI与现有方法的有效性，也强调了分类嵌入技术的重要性。

CSDI在Tabular data上的翻版