Water8L-CSDN博客

原创论文研读系列——“TabDDPM: Modelling Tabular Data with Diffusion Models”

TabDDPM: Modelling Tabular Data with Diffusion Modelsarxiv [Submitted on 30 Sep 2022]链接：arXiv:2209.15421代码：https://github.com/rotot0/tab-ddpm摘要本文介绍了 TabdDPM，这是一种旨在使用扩散模型生成表格数据的新模型，该模型在计算机视觉和语音处理等领域很受欢迎。TabdDPM 之所以独一无二，是因为它可以处理不同类型的数据特征，例如连续和离散的数据特征，因此

2024-05-20 21:25:37 1651 1

原创论文研读系列——“Revisiting Deep Learning Models for Tabular Data”

Revisiting Deep Learning Models for Tabular Dataarxiv [Submitted on 22 Jun 2021 , last revised 26 Oct 2023 ]链接：arXiv:2106.11959代码：https://github.com/Yura52/tabular-dl-revisiting-modelshttps://github.com/yandex-research/tabular-dl-revisiting-models摘要本

2024-05-20 20:35:26 2259 1

原创论文研读系列——“Quantifying and Mitigating Privacy Risks for Tabular Generative”

Quantifying and Mitigating Privacy Risks for Tabular Generativearxiv [Submitted on 12 Mar 2024]链接：arXiv:2403.07842代码：https://anonymous.4open.science/r/DP-TLDM-317C摘要本文讨论了如何使用生成模型创建的合成数据在不泄露私人信息的情况下共享数据，重点是按行和列结构的表格数据。它强调了先前研究的局限性，这些研究仅考虑了少数类型的隐私攻击和生成模

2024-05-20 19:24:36 907 1

原创论文研读系列——“On Embeddings for Numerical Features in Tabular Deep Learning”

On Embeddings for Numerical Features in Tabular Deep Learningarxiv [Submitted on 10 Mar 2022 , last revised 26 Oct 2023 ]链接：arXiv:2203.05556代码：https://github.com/Yura52/tabular-dl-num-embeddingshttps://github.com/yandex-research/tabular-dl-num-embeddin

2024-05-20 18:14:40 1238 1

原创论文研读系列——“Modeling Tabular Data using Conditional GAN”

通过使用模拟和真实数据集测试这些模型，作者发现建模表格数据为 GANs 带来了独特的挑战，导致它们在多个度量标准上未能达到基线方法，例如似然拟合度和合成生成数据的机器学习有效性。在本文中，作者试图找到一个灵活且强大的模型来学习具有复杂分布的列的分布。CTGAN 是一种新方法，旨在从具有两种类型的数据的表格中创建真实的合成数据：数字可以变化，类别可能不均匀，这对于许多现有模型来说是一项艰巨的任务。在大多数测试的数据集上，CTGAN的表现优于贝叶斯网络，后者是处理此类数据的传统方式，这表明了其有效性。

2024-05-20 15:49:53 1110 1

原创论文研读系列——“TabuLa: Harnessing Language Models for Tabular Data Synthesis”

TabuLa: Harnessing Language Models for Tabular Data Synthesisarxiv [Submitted on 19 Oct 2023]链接：arXiv:2310.12746代码：https://github.com/zhao-zilong/tabula摘要作者开发了Tabula，这是一种创建虚假但真实的数据表的新方法，它有助于保护私人信息的安全，同时仍允许公司像处理真实数据一样处理数据。这种方法很重要，因为欧洲的GDPR等法律使企业难以使用他们收

2024-05-20 01:23:10 1250

原创论文研读系列——“Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains”

Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domainsarxiv [Submitted on 18 Jun 2020]链接：arXiv:2006.10739代码：https://github.com/tancik/fourier-feature-networks摘要这项研究表明，一种称为傅里叶特征映射的基本技术可以帮助名为多层感知器（MLP）的计算机模型更有效地学习图像和三维场景

2024-05-19 23:37:50 1121 1

原创论文研读系列——“FCT-GAN Enhancing Table Synthesis via Fourier Transform”

FCT-GAN Enhancing Table Synthesis via Fourier Transformarxiv [Submitted on 12 Oct 2022]链接：arXiv:2210.06239摘要本文介绍了 FCT-GAN，这是一种创建合成表格数据的新方法，它使用一种特殊技术，可以考虑整个数据，不会混淆数据列的顺序，从而遵守 GDPR 等隐私法。它在变压器风格的设置中结合使用特征标记化和傅里叶网络，以更好地捕获数据中的详细和广泛模式，旨在生成与原始非常相似的合成数据。该方法已在各

2024-05-19 20:34:33 1032 1

原创论文研读系列——“Diffusion models for missing value imputation in tabular data”

根据结果，观察到TabCSDI在数值变量插补方面是有效的，它在7个数据集中的5个上获得了最佳的RMSE性能。: 在作者的实验中，作者将他们提出的方法与一个简单的基线方法进行了比较，该方法对数值变量使用训练数据的平均值，对分类变量使用众数值(Mean / Mode)。本文介绍了一种名为 “TabCSDI” 的新方法，用于猜测表格中缺失的信息，当计算机从不完整的数据中学习时，这是一个很大的挑战。作者的实验结果表明，TabCSDI可以成功训练，与现有的迭代方法和生成方法相比，取得了竞争性的性能。

2024-05-19 16:45:37 1341 1

原创论文研读系列——“CTAB-GAN Effective Table Data Synthesizing”

CTAB-GAN Effective Table Data Synthesizingarxiv [Submitted on 16 Feb 2021 , last revised 31 May 2021 ]链接：arXiv:2102.08369代码：https://github.com/team-tud/ctab-gan摘要本文介绍了CTAB-GAN，这是一种新工具，旨在通过处理数字和类别数据，并特别关注不遵循通用模式或具有稀有值的数据来创建看起来像真实数据但不违反隐私法的合成数据表。作者使用其他类

2024-05-19 15:07:50 1152 1

原创论文研读系列——“Argmax Flows and Multinomial Diffusion: Learning Categorical Distributions”

Argmax Flows and Multinomial Diffusion: Learning Categorical Distributionsarxiv [Submitted on 10 Feb 2021 , last revised 22 Oct 2021 ]链接：arXiv:2102.05379v3代码：https://github.com/ehoogeboom/multinomial_diffusionhttps://github.com/didriknielsen/argmax_flo

2024-05-19 00:03:46 761

原创论文研读系列——“CatBoost unbiased boosting with categorical features”

CatBoost unbiased boosting with categorical featuresarxiv [Submitted on 28 Jun 2017 , last revised 20 Jan 2019 ]链接：arXiv:1706.09516v5代码：https://github.com/catboost/catboost摘要本文介绍了 CatBoost（一种新的梯度提升工具包）背后的关键算法技术。它们的结合导致 CatBoost 在各种数据集的质量方面优于其他公开可用的提升实

2024-04-24 23:46:14 1691 2