论文研读系列——“TabuLa: Harnessing Language Models for Tabular Data Synthesis”-CSDN博客

本文链接：https://blog.csdn.net/Water8L/article/details/139051490

TabuLa: Harnessing Language Models for Tabular Data Synthesis

arxiv [Submitted on 19 Oct 2023]

代码：https://github.com/zhao-zilong/tabula

摘要

作者开发了Tabula，这是一种创建虚假但真实的数据表的新方法，它有助于保护私人信息的安全，同时仍允许公司像处理真实数据一样处理数据。这种方法很重要，因为欧洲的GDPR等法律使企业难以使用他们收集的真实数据，这促使他们在不违反隐私规则的情况下寻找其他使用数据的方式。Tabula 之所以特别，是因为它使用语言模型来制作这些数据表，类似于某些 AI 理解和生成人类语言的方式，这是该领域的一种新方法。作者想方设法更快地教导Tabula，使其更灵活地处理不同类型的数据，从而使Tabula变得更好，与旧方法相比，这是一个很大的改进。他们的实验表明，Tabula可以快速准确地制作数据表，使其成为需要数据的企业的有用工具，而不会危及人们的隐私。

1 INTRODUCTION（引言）

包括教育平台和旅行社在内的许多组织从网络上收集了大量的表格数据。这些数据集通常用于各种商业应用，如客户细分和动态产品定价。然而，自从欧洲通用数据保护条例（GDPR）实施以来，数据在欧洲市场的可访问性已大大受到限制。例如，旅行社现在被要求在旅行结束后三个月内从他们的网站上删除乘客旅行信息。由于表格数据是一种主要的数据格式，表格数据合成已成为一个关键的研究领域，旨在在保护隐私和保密性的同时生成逼真的数据。先前的研究已经使用生成对抗网络（GANs）、变分自编码器（VAEs）和扩散模型等方法探讨了这个话题。在这一领域的最新技术方法利用了大型语言模型（LLMs）来有效和高效地解决表格数据合成的挑战。

与之前的技术相比，LLMs在表格数据合成方面提供了两个主要优势：(1) LLMs的令牌化过程完全基于文本，消除了为几乎所有基于GAN和扩散模型的表格数据合成器预定义列数据类型（如分类或连续）的需要；(2) 完全基于文本的令牌化方法还解决了在使用one-hot编码处理高维数据时遇到的维度爆炸问题。然而，这些尖端技术也有它们自己的局限性，特别是在训练效率和保持跨列关联方面。GReaT框架是这类基于LLM的方法之一，由于其收敛速度慢，需要长时间的训练。根据报告，要达到与CTGAN相似的合成数据质量，CTGAN的1分钟训练作业需要GReaT超过9小时。REaLTabFormer是另一种基于LLM的表格数据合成器。为了减少不相关令牌的生成，REaLTabFormer采用固定集的词汇表来限制令牌化过程中的令牌种类。但它对数值的编码通过逐位编码数字打破了数字的整体性。这可能会改变数值与其他列之间的跨列关联。它还延长了令牌序列的长度，导致训练时间增加。

为了应对这些挑战，作者引入了一种新方法——基于大型语言模型框架的表格数据合成器Tabula。Tabula的主要目标是加快基于LLM的表格数据合成任务的收敛速度。作者通过四个关键特性实现了这一点：(i) 重新评估用于数据合成的预训练NLP模型。作者的工作挑战了将预训练的自然语言处理（NLP）模型（如GPT-2）作为表格数据合成起点模型的传统用途。相反，作者主张使用随机初始化的语言模型进行表格数据合成。这种战略选择使模型能够更快地适应表格数据合成任务的需求。(ii) 为表格合成定制基础模型。作者深入研究创建专门针对表格数据合成的复杂性定制的基础模型。与通常依赖预训练模型的方法不同，他们的新方法涉及从头开始初始化一个基础模型，并针对表格合成任务进行优化。通过这样做，作者释放了一个为表格数据构建的模型的固有优势，该模型从头开始构建，用于表格数据。(iii) 令牌序列压缩。为了训练LLMs进行表格数据合成，关键是要捕捉不同列之间以及分类值与其他列值之间的相互作用和关联。列名和分类值主要作为这些关系的指示。鉴于一个单一的令牌就足以表示这样的指示，作者选择将所有列名和分类值压缩成一个令牌。与此同时，在表到文本的转换过程中，作者简化了先前算法中使用的术语"X is Y"（其中’X’表示列名，'Y’代表它的值）为"X Y