论文粗读系列-6:TabCSDI

本文探讨了如何在表格数据中应用扩散模型进行缺失值插补,特别是通过作者提出的TabCSDI方法。该方法关注分类变量和数值变量的处理,介绍了one-hot编码、模拟比特编码和特征标记化的嵌入技术。实验证明了TabCSDI的有效性。
摘要由CSDN通过智能技术生成

论文粗读系列-6

Diffusion models for missing value imputation in tabular data

1.简介

NiPS 2022 workshop

链接:[2210.17128] Diffusion models for missing value imputation in tabular data (arxiv.org)

机器学习中的缺失值插补是利用可用信息准确估计数据集中缺失值的任务。

在这项任务中,已经提出了几种深度生成建模方法并证明了它们的实用性,例如生成对抗imputation网络。近年来,扩散模型因其在图像、文本、音频等生成建模任务中的有效性而获得了广泛的应用。在之前,很少有人关注扩散模型对表格数据中缺失值的有效性的研究。基于时间序列数据输入扩散模型的最新发展,作者提出了一种名为“基于条件分数的表格数据扩散模型”(TabCSDI)的扩散模型方法。为了有效地同时处理分类变量和数值变量作者研究了三种技术:单热编码、模拟比特编码和特征标记化。在基准数据集上的实验结果证明了TabCSDI与现有方法的有效性,也强调了分类嵌入技术的重要性。

CSDI在Tabular data上的翻版

2.方法

方法和CSDI基本一致,比较关键的是对于分类信息的嵌入,作者提出了三种形式

在这里插入图片描述

  • One-hot 编码
  • analog bits 编码
  • feature tokenizer

对于这三种编码,作者用处理后的输入训练模型。在获得原始输出后,不同的处理方案需要不同的恢复程序。对于onehot编码,将最大元素的索引视为模型推断的类别。对于模拟位编码,如果输出元素大于0,则将每个输出元素转换为1,否则将其转换为- 1。

在FT方案中,作者需要从嵌入中恢复数值变量和分类变量。

对于数值变量,作者将扩散模型输出除以相应的嵌入元素,并使用平均值作为最终模型输出。对于分类变量,作者计算TabCSDI输出与每个分类嵌入之间的欧氏距离,并将最近嵌入的类别(即1-近邻)设置为最终的模型输出。

3.狗头保命

以上观点均为本人对于原文的粗鄙理解,仅作为个人学习笔记,如有错误烦请指正,如有侵权请联系我删除。

不摆了,加训!

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值