本文是LLM系列文章,针对《Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey》的翻译。
表格数据的大型语言模型(LLM):预测、生成和理解—综述
摘要
最近在大型语言建模方面的突破促进了对其在与表格数据建模相关的各种任务中的应用的严格探索,如预测、表格数据合成、问答和表格理解。每项任务都会带来独特的挑战和机遇。然而,目前缺乏对该研究领域的关键技术、指标、数据集、模型和优化方法进行总结和比较的全面综述。这项调查旨在通过整合这些领域的最新进展来解决这一差距,对所使用的数据集、指标和方法进行彻底的调查和分类。它确定了现有文献中的优势、局限性、未探索的领域和差距,同时为这一重要且快速发展的领域的未来研究方向提供了一些见解。它还提供了相关的代码和数据集参考。通过这篇全面的综述,我们希望为感兴趣的读者提供相关的参考资料和富有洞察力的观点,使他们能够获得必要的工具和知识,有效应对该领域的普遍挑战。
1 引言
2 LLM在表格数据中应用的关键技术
3 LLM用于预测
4 LLM用于表格数据生成
5 LLM用于表格理解
6 局限性和未来方向
7 结论
这项调查是对LLM在各种任务中用于建模异构表格数据的首次全面调查,包括预测、数据合成、问答和表格理解。我们深入研究了LLM获取表格数据所需的基本步骤,包括序列化、表格操作和提示工程。此外,我们还系统地比较了每项任务的数据集、方法、指标和模型,强调了在理解、推断和