通过答案-公式联合生成实现通用表格问答_基于特征的表格问答方法--csp 模型-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/146714421

先进的表格问答（TableQA）方法提示大型语言模型（LLMs）生成答案文本、SQL查询、Python代码或自定义操作，这显著提升了TableQA任务中的复杂推理问题。然而，这些方法缺乏应对特定问题类型或表格结构的灵活性。相比之下，电子表格公式作为一种广泛使用且明确定义的操作语言，尚未被充分探索以解决TableQA问题。在本文中，我们首次尝试使用公式作为逻辑形式来解决不同结构表格上的复杂推理问题。具体而言，我们从现有数据集中构建了一个大规模的公式注释TableQA数据集 FromulaQA 。此外，我们提出了 TabAF ，这是一个用于同时解决多种类型表格上多种类型任务的通用表格回答框架。与现有方法不同， TabAF 通过单一的LLM主干解码答案和公式，展示了极高的灵活性和泛化能力。 TabAF 基于Llama3.1-70B在WikiTableQuestion、HiTab和TabFact上实现了新的最先进性能。

表格数据无处不在，是许多领域中的重要数据载体。表格问答（TableQA）任务旨在根据表格回答自然语言问题，要求模型理解和分析表格内容。TableQA中的问题可以分为查找问题和复杂推理问题两类：查找问题选择表格内容的一部分作为答案，而复杂推理问题则需要从表格中的多个值进行计算或聚合。

TableQA中的不同生成模式。

当前主流的TableQA方法利用大型语言模型（LLMs）的能力，要么通过提示LLMs生成预期输出而不进行训练 (Cheng 等 2023; Wang 等 2024; Yang 等 2025) ，要么微调LLMs以增强其表格推理能力 (T. Zhang 等 2024; X. Zhang 等 2024) 。一般来说，现有的LLM-based TableQA方法中有四种生成模式：直接提示（DP）模式旨在提示LLMs直接生成文本答案或通过链式思维（CoT）推理后得出最终答案 (T. Liu, Wang 和 Chen 2024; R. Jiang, Wang 和 Deng 2024) 。基于DP的方法具有高度的灵活性，不受表格结构限制。它擅长从表格中查找答案，特别是在从复杂单元格中提取子字符串内容时表现出色。其余三种是通过逻辑形式生成的模式，包括生成SQL查询 (Cheng 等 2023; Ni 等 2023) 、Python代码 (Su 等 2024; Yang 等 2025) 和自定义操作 (Mouravieff, Piwowarski 和 Lamprier 2024) 。它们设计用于调用外部引擎来推理答案，尤其更擅长处理复杂推理。具体来说，SQL模式可以为类似数据库的表格生成SQL查询以过滤和聚合答案；Python模式使用第三方工具包，如 Pandas 2 ，来处理数据处理和计算；自定义操作模式生成并执行包含定义操作符和表格值的表达式。

然而，正如图 1 所示，现有的生成模式都有不可忽视的缺点：（1）DP模式依赖于LLMs的内在推理能力，在表格上的复杂推理问题上表现不佳；（2）基于SQL的方法假设表格类似于数据库，难以应用于分层表格；（3）Python代码模式往往难以处理复杂的表格结构。例如， Pandas 在处理横向表格时容易出错，并且需要额外步骤进行混合数据处理和多索引查找，增加了代码复杂性；（4）生成自定义操作的方法定义了一组有限的推理操作符，表现出较差的可扩展性。

因此，一个关键问题浮现出来： 是否存在一种通用的逻辑形式可以处理各种问题类型的多样化表格？ 在本文中，我们探索了其中一个有前途的候选者，即电子表格公式（简称为公式）。作为表格数据的原生操作语言，公式包含为表格数据设计的丰富操作符。先前的工作 (Cheng, Dong, Jia, 等 2022) 显示了其在简单算术推理方面的潜力，但忽略了公式的通用问答能力。同时，通过LLMs生成公式以完成表格问答任务尚未被探索。我们相信生成公式提供了以下优势：（1）公式可以适应不同结构的表格，如同基于DP的方法一样，使其适合包含混合数据类型的表格；（2）公式执行对数据友好，执行引擎兼容不同的格式化值，如格式化的数字或日期，不像其他方法需要数据类型转换；（3）公式非常适合复杂推理，如对横向行或分层表格进行数值计算，这是Python或SQL难以完成的任务。

为了释放LLMs生成公式的潜力， 我们构建了 FormulaQA ，一个大规模的公式注释TableQA数据集 。具体来说，我们首先从现有数据集中收集公式数据，然后将注释在TableQA中的SQL转换为公式模板。为了增强问题的多样性，我们使用GPT-4o标注更多公式并验证其执行正确性。结果， FormulaQA 包含24,738个样本，完整注释了（问题、表格、答案）三元组和公式。

此外，为了结合DP和公式的优点， 我们提出 TabAF ，一个答案-公式联合生成和聚合框架 。 TabAF 支持DP和公式生成模式，其中DP模式专注于通过生成直接答案来回答查找问题，而公式模式专注于通过生成和执行推理公式来回答复杂推理问题。提出了一种基于困惑度的聚合方法，以选择两种模式生成的答案。这两种模式都生成短输出，适用于不同类型的表格，实现了高效和通用的TableQA。

基于 FormulaQA ，我们训练了五个不同大小变体的 TabAF (三个来自Qwen2.5-Coder (Hui 等 2024) 和两个来自Llama3.1 (Dubey 等 2024) )。 广泛的实验分析表明了我们方法的优势 ：对于领域内设置， TabAF 在WikiTableQuestion、HiTab和TabFact上取得了新的最佳性能（§ 5.2.1 ）；对于领域外设置， TabAF 展示了在航空领域的AIT-QA和金融领域的FinQA上的泛化能力，其性能显著优于现有的表格LLMs（§ 5.2.2 ）；消融实验表明TabAF中两种模式的必要性和高性能上限（§ 5.3 ）；我们还研究了多数投票对性能的影响，为不同水平的性能和效率权衡提供推荐，并通过错误分析指出了未来改进的方向（§ 5.4 ）。

2 相关工作

2.0.0.1 基于提示的TableQA方法

大多数基于LLM的方法利用LLM的上下文学习能力来预测答案或像SQL或Python这样的逻辑形式。Binder (Cheng 等 2023) 提示LLMs生成SQL查询。Chain-of-Table (Wang 等 2024) 和API-Assisted (Cao 等 2023) 分别为扁平和分层表格设计Python函数。最近， (T. Liu, Wang 和 Chen 2024) 和 (Yang 等 2025) 对多种方法的不同输出进行联合推理，实现了扁平表格上的最佳性能。大多数现有方法仅适用于扁平或分层表格，缺乏对不同表格结构的泛化能力。此外，大多数研究依赖于封闭源模型（如ChatGPT）进行执行。

2.0.0.2 基于微调的TableQA方法

传统方法 (Yin 等 2020; Herzig 等 2020) 利用不同输入或输出格式的数据进行预训练，以增强小型模型的推理能力。FORTAP (Cheng, Dong, Jia, 等 2022) 首次将公式引入TableQA任务，使用Hitab中标注的公式进行训练 (Cheng, Dong, Wang, 等 2022) ，其中公式限于算术运算。一些研究，包括TableLLama (T. Zhang 等 2024) 、TableLLM (X. Zhang 等 2024) 、TableBench (Wu 等 2024) 和TableGPT2 (Su 等 2024) ，旨在通过在更多表格数据上进行微调来提升LLMs的表格推理能力。他们的微调LLMs在单一任务上表现不佳。

2.0.0.3 电子表格公式预测

最近，一些方法研究了表格中的公式预测。SpreadSheetCoder (X. Chen 等 2021) 完成给定表格中单元格的公式。Auto-Formula (S. Chen 等 2024) 基于相似表格的公式推荐单元格的公式。他们的目标是完成或推导电子表格内容而不涉及自然语言问题，这与TableQA不同。NL2Formula ( zhao2024nl2Formula? ) 提供了一个将自然语言问题转化为公式查询的基准，其中大多数公式类似于SQL，无法应用于结构丰富和值多样的表格。

3 FormulaQA

电子表格公式作为一种处理表格数据的原生操作集，被人类广泛使用。然而，现有的LLMs并不擅长通过公式进行推理，因为它们通常在训练阶段没有见过足够的公式。为了增强LLMs生成公式的功能，并充分利用公式在不同类型的结构化表格上完成复杂推理的优势，我们构建了 FormulaQA ，一个用于TableQA任务的电子表格训练数据集。

3.1 数据集构建

为了确保我们的公式数据集涵盖TableQA的常见场景，我们首先收集现有QA领域的公式数据。然后，为了解决现有数据集中公式数据不足的问题，并扩展基本复杂推理能力，我们利用TableQA数据集中的SQL数据，通过模板将SQL查询转换为公式。最后，我们使用强大的LLM对WTQ中复杂或不可行的SQL表示的问题进行公式标注。

3.1.0.1 现有公式收集

3.1.0.2 基于模板的SQL到公式转换

我们收集用于TableQA任务的SQL数据以转换为公式，因为单表Text-to-SQL任务中的SQL查询较为简单。WTQ (Pasupat 和 Liang 2015) 是一个主流且具有挑战性的TableQA基准。Squall (Shi 等 2020) 规范了WTQ训练和开发集中的表格，并为可由SQL解答的问题标注了SQL查询及其对应的模板，这适合我们的公式转换。我们统计SQL模板并手动编写转换程序以处理常见模板。 对于可以从表格中查找的实体，我们直接使用它们的坐标（如“ A5 ”），而不是通过诸如“ FILTER ”之类的操作过滤它们，使公式更加简洁。 我们在表 [tab:transfer_sql_examples] 中提供了部分模板转换的样例SQL查询及其对应公式。

3.1.0.3 使用强大LLM进行标注

Squall中剩余的长尾模板很难进行公式转换。此外，由于SQL的局限性，一些SQL无法解决的问题也可以通过公式表达。因此，我们使用GPT-4o对WTQ中剩余的问题进行公式标注。我们提示LLM生成十个公式并在Excel中执行以获得答案。我们选择最短的正确公式，因为它可能是最简洁的。如果没有任何公式执行正确，我们将错误结果反馈给LLM以生成新公式。每个问题的标注过程限于三次尝试。超出限制的样本将被丢弃，因为它们可能过于复杂或难以用逻辑形式表达。

为了增加数据的多样性，我们还从TabFact中随机选择少量问题进行标注，以增强公式的多样性。TabFact是一个常用的表格事实核查任务数据集。用于标注公式的提示可以在附录 10.1 中找到。

3.2 数据集统计

我们根据WTQ数据集的随机分割1，将从Squall转换的SQL查询公式和由GPT-4o标注的公式分开。表 1 显示了 FormulaQA 的统计数据。HiTab中的公式只包含少数几个标记，主要包括查找公式（如“=A2”）和少量算术公式。WTQ和Squall的公式比HiTab更长，包含更多的复杂推理操作符，如过滤、排序和聚合，代表了来自真实Web环境的表格。TabFact的公式甚至更长，因为事实核查任务需要公式在多个条件下进行验证。

4 TabAF

为了利用公式在复杂问题推理中的优势以及DP在处理查找问题中的优势，我们提出了 TabAF ，一个用于表格问答的答案-公式联合生成框架。如图 [fig:framework] 所示， TabAF 生成公式和答案，并采用聚合策略选择更好的输出。

4.1 答案-公式联合生成

在训练阶段，我们采用多任务学习方法微调LLMs。微调数据包括 FormulaQA 用于公式生成和相应的原始TableQA数据集用于答案生成。原始数据集涉及WTQ和HiTab的训练集，以及与 FormulaQA 一致采样的TabFact训练子集。在推理过程中，我们同时使用DP和公式模式对新问题进行推理。我们使用Xlwings 3 调用Excel引擎执行公式。随后，我们应用聚合策略更好地利用联合推理的优势。

4.2 聚合策略

DP和公式是两种不同的模式，分别侧重于解决不同类型的问题。为了最大化两种模式的优势，我们探索了不同的聚合策略以获取最终答案。

考虑到标记效率，生成更多输出可能会增加额外的时间开销。因此，我们首先探索贪婪解码设置，其中每种模式只生成一个输出。我们主要考虑使用困惑度进行聚合。
困惑度-2 . 我们选择困惑度较低的答案或公式，这被认为表示LLM的置信度。

我们进一步探索将现有技术集成到我们的框架中，在非贪婪解码设置下生成多个输出。遵循之前的工作 (T. Liu, Wang 和 Chen 2024; Yang 等 2025) ，我们为每种模式生成五个输出，并对十个输出应用策略。我们探索以下三种策略：
困惑度-10 . 类似于困惑度-2，但从未选的十个输出中选择困惑度最低的答案或公式。
投票-10 . 我们执行五个公式以获得相应的答案，并对十个答案进行多数投票，因为当LLM熟练于问题时通常会生成一致的答案。
PA-10 （概率聚合）。类似于投票-10，但PA-10收集相同答案的概率，并选择概率最高的答案作为最终答案。

由于公式的输出可能无法产生预期答案，对于所有我们探索的聚合策略，如果公式执行不正确或获得空值，我们将忽略该公式并对剩余公式和直接答案应用聚合策略。考虑到推理效率和实用性， 我们在主要实验中使用困惑度-2作为聚合策略，并在分析实验中比较其他聚合策略。

5 实验

5.1 实验设置

5.1.0.1 领域内数据集

我们在WikiTableQuestion (WTQ) (Pasupat 和 Liang 2015) 、HiTab (Cheng, Dong, Wang, 等 2022) 和 TabFact (W. Chen 等 2020) 上评估我们的方法，相关训练集包含在训练数据中。WTQ是最常用的TableQA基准，包含4,344个测试样本。它包含复杂的问题，需要在给定表格中跨多个实体进行推理以获得答案。HiTab是一个分层网络表格基准，来源于统计报告和维基百科页面，测试集中有1,584个样本。HiTab中的表格通常包含丰富的表格结构和数值。TabFact是一个基于表格的事实验证数据集，判断陈述是否与给定表格匹配。我们在其test-small集（2,024个样本）上进行评估。我们还划分了WTQ和HiTab的复杂子集（分别包含2,421和217个示例）以评估复杂推理能力，划分标准详见附录 8 。

5.1.0.2 领域外数据集

我们选择AIT-QA (Katsis 等 2022) 和 FinQA (Z. Chen 等 2021) 作为领域外数据集以评估 TabAF 的泛化能力。AIT-QA是一个分层表格基准，包含515个样本和113个来自航空领域的表格。FinQA是一个金融领域的混合问答数据集。它需要对表格和周围的文本进行数值推理以获得答案。我们在公共测试集（包含1,147个样本）上评估我们的模型。

5.1.0.3 评估指标

遵循之前的工作 (Cheng 等 2023; Ye 等 2023) 。对于WTQ，我们采用含义准确性作为评估指标，并使用官方评估脚本。对于HiTab、AIT-QA 和 FinQA，我们使用准确率。对于TabFact，我们使用二分类准确率。在主要实验中，我们还报告了WTQ上的生成标记数（#Token），以说明不同方法在推理答案时的效率。

5.1.0.4 LLMs

5.1.0.5 基线

我们将提出的框架与广泛的基线进行比较，包括基于提示的方法和基于微调的方法。为了确保公平比较，基线输出需要是简短的确定性答案而不是自由形式的答案。基于此规则，我们排除了TableLLM (X. Zhang 等 2024) ，因为它依赖于批评型LLM进行评估。基于提示的方法是TableQA的主要方法，其中大多数依赖于大型封闭源模型以实现更好的表格推理性能。我们与这些方法进行比较：Binder (Cheng 等 2023) 、Dater (Ye 等 2023) 、API-Assistied (Cao 等 2023) 、Chain-of-Table (Wang 等 2024) 、ReAcTable (Y. Zhang 等 2024) 、Norm (T. Liu, Wang 和 Chen 2024) 、TIDE (Yang 等 2025) 、E5 (Z. Zhang, Gao 和 Lou 2024) 、SS-CoT (R. Jiang, Wang 和 Deng 2024) 。对于基于微调的方法，我们选择针对TableQA任务微调或开发的模型，包括TAPEX-Large (Q. Liu 等 2022) 、OminiTab (Z. Jiang 等 2022) 、TableLlama (T. Zhang 等 2024) 、TableLLM (Wu 等 2024) 、TableGPT2 (Su 等 2024) 。

5.2 主要结果

5.2.1 领域内性能

TabAF 在不同模型规模下始终优于现有方法。 如表 [tab:main_results] 所示， TabAF 在Qwen2.5-Coder-7B和Llama3.1-8B上微调，在WTQ和HiTab数据集上的表现与采用多个附加模块和更大模型的方法相当。 TabAF 微调的最大模型（Llama3.1-70B）分别在WTQ、HiTab和TabFact上超过其他方法至少3.75%、0.21%和1.19%。
TabAF 表现出推理标记效率。 由于我们仅分别生成公式和直接答案， TabAF 在推理问题时消耗的标记数量比利用链式思维、生成五个以上输出或采用多阶段迭代推理的方法少，这表明我们的框架可以在实际场景中实现更快和更准确的响应。
TabAF 在不同表格场景中表现出多样性。 大多数基线方法专为特定表格场景设计，并在一个数据集上取得最佳结果。相比之下，我们的方法在多个数据集上始终优于不同的专业化方法，进一步突显了DP和公式方法在表格推理任务中的通用性和 TabAF 的有效性。

5.2.2 领域外性能

如表 [tab:ood_results] 所示，我们的方法在两个领域外数据集上保持性能。对于AIT-QA，即分层表格数据集，我们的公式执行不受表格结构限制，而TableGPT-2难以在其原始分层表格上成功执行Python代码。对于FinQA，这是一个需要对表格和与表格相关的文本进行推理问题的混合QA数据集，尽管 TabAF 未专门针对混合QA任务进行微调，但仍然可以通过输出公式来执行复杂的推理，例如在FinQA数据集上进行数值计算，从而优于其他基于微调的方法。基于DP的方法，如TableLlama和TableLLM (TCoT)，在处理此类复杂推理问题时表现不佳。TableGPT2得益于生成Python代码的能力，可以解决一些复杂的推理问题，但在混合QA场景中仍表现出较高的代码错误率。

5.3 消融研究

为了评估我们框架中两种生成模式（公式和DP）的有效性，我们在领域内数据集上对 TabAF （Qwen2.5-Coder-7B和Llama3.1-70B）进行了消融研究。如表 [tab:ablation_res1] 所示，排除每种生成模式都会显著降低WTQ和HiTab数据集上的性能。在WTQ和HiTab的复杂推理子集上，使用公式模式的表现分别比DP模式高出至少7.26%和23.50%，这表明公式在处理复杂推理问题上更为擅长，无论是平面表格还是分层甚至不规则表格。DP和公式在WTQ和HiTab上的相似表现，以及它们与聚合后的最终答案之间的显著差距，再次表明这两种模型在不同类别的问题上各有优势。我们的框架可以利用DP和公式的互补优势。在TabFact上，公式的性能相对较低，因为TabFact是一个事实核查数据集，与其他数据集有显著差异，模型需要生成置信度较低的较长公式，即困惑度高于DP。然而，通过我们的聚合策略，当模型置信时，我们仍然能够利用公式的复杂推理能力，使 TabAF （Llama3.1-70B）仍然优于所有其他方法。

5.4 进一步分析

5.4.0.1 不同聚合策略的性能

我们在图 4 和图 8 中比较了不同聚合策略的性能。Perplexity-2和Perplexity-10，选择困惑度较低的答案，表现处于中等水平。Vote-10，现有方法中采用的策略 (T. Liu, Wang 和 Chen 2024; Yang 等 2025) ，在聚合方面效果较差，可能是由于高温度引入的不确定性，导致模型生成的答案不够令人信服。对于所有模型，PA-10通常表现出更高的稳定性。它收集相同答案的概率，考虑答案的困惑度和出现频率。在时间效率不是关键问题的情况下，可以使用PA-10进行更好的答案聚合。

5.4.0.2 超出上限的坏案例

6 结论

本文中，我们构建了 FormulaQA ，一个带有公式注释的数据集，以增强LLMs在TableQA中的电子表格公式生成能力。我们提出了 TabAF ，一个答案-公式联合推理框架，该框架利用公式和直接提示（DP）在解决查找问题和复杂推理问题方面的互补性。广泛的实验结果表明， TabAF 在WTQ、HiTab和TabFact数据集上始终优于现有的基于提示和基于微调的TableQA方法。此外，关于领域外数据集如AIT-QA和FinQA的经验研究表明了 TabAF 在新领域和混合QA任务中的泛化能力。这些事实证实了 TabAF 在提升LLMs表格推理能力方面的有效性和多样性。

7 局限性

我们的工作存在一些局限性。首先，本文主要关注单表问答。跨多表推理尚未探索，在这种情况下，公式呈现更多变化，值得未来研究。其次，本文仅关注单回合推理，而一些复杂问题依赖于中间推理步骤。将框架扩展到多回合推理将在未来有益。

8 划分复杂子集的标准

为了展示我们方法在复杂推理方面的能力，我们从WTQ和HiTab中划分复杂子集进行评估。由于WTQ数据集只包含答案注释，我们使用GPT-4o划分复杂推理子集。我们提示LLM判断回答问题是否需要算术运算、日期计算、值聚合或其他可能涉及数字的操作。结果，我们划分了包含2,421个样本的WTQ复杂推理子集。由于HiTab标注了公式，我们将非赋值公式分类为Hitab的复杂推理子集，因为这些答案无法直接从表格中获得。HiTab复杂推理子集包含217个样本。

9 补充实验

9.1 所有微调模型的消融研究

我们在表 2 中对所有基础模型微调的 TabAF 进行了消融实验。对于所有模型尺寸，我们的框架利用了两种生成模式的优势。移除任何一种生成模式都会导致每个基准性能显著下降。

10 提供给LLM的提示

在本节中，我们提供了用于构造 FormulaQA 的公式注释提示，以及指导LLM生成公式或直接答案的提示。

10.1 公式注释提示

我们利用提示为WTQ中的复杂问题和TabFact中随机抽样的问题注释公式。

系统:
给定一个Excel表格、一个问题及其答案。写出一个Excel公式（=???）以获得答案，您只需输出公式。
用户:
[表格] {table_str}
[问题] {question}
[标准答案] {gold_answer}
[您认为回答问题的公式]
助手:
# 生成的公式

（如果生成的公式均不正确）
用户:
在前几轮中，您尝试生成了以下公式，但没有一个是正确的。请尝试生成正确的公式。您只需输出公式。
[您在前几轮生成的错误公式]
1. 公式是: {formula} ; 执行结果是: {result}
2. 公式是: {formula} ; 执行结果是: {result}
...
[您认为回答问题的公式]

助手:
# 生成的公式

10.2 生成公式的提示

我们利用提示引导LLM生成公式输出。我们提供表格数据示例以展示生成公式和生成答案之间的差异。

系统:
您是一位Excel专家。根据Excel表格，生成Excel公式以回答用户问题。
用户:
[表格标题] 农业食品行业子组，适用于15岁及以上的工人，2011年
[表格]
|0|A|B|C|D|E|
|1|农业食品子组|安大略东部|安大略东部|安大略北部|安大略北部|
|2|农业食品子组|法语工人|其他工人|法语工人|其他工人|
|3|农业食品子组|百分比|百分比|百分比|百分比|
|4|投入和服务供应|2.9|2.1|2.9|1.3|
|5|食品、饮料和烟草加工|9.7|6.0|3.0|3.3|
|6|食品零售和批发|35.3|31.3|39.1|37.3|
|7|食品服务|52.1|60.6|55.0|58.1|
[问题]
{question}
[公式]

助手:
# 输出公式

10.3 生成直接答案的提示

我们利用提示指导LLM生成答案输出。

系统:
这是一个表格问答任务，基于给定的表格回答给定的问题。仅输出答案。
用户:
[表格标题] 农业食品行业子组，适用于15岁及以上的工人，2011年
[表格]
|农业食品子组|安大略东部|安大略东部|安大略北部|安大略北部|
|农业食品子组|法语工人|其他工人|法语工人|其他工人|
|农业食品子组|百分比|百分比|百分比|百分比|
|投入和服务供应|2.9|2.1|2.9|1.3|
|食品、饮料和烟草加工|9.7|6.0|3.0|3.3|
|食品零售和批发|35.3|31.3|39.1|37.3|
|食品服务|52.1|60.6|55.0|58.1|
[问题]
{question}
[答案]

助手:
# 输出直接答案

Cao, Yihan, Shuyi Chen, Ryan Liu, Zhiruo Wang, 和 Daniel Fried. 2023. “API-Assisted Code Generation for Question Answering on Varied Table Structures.” In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing , 14536–48.

Chen, Sibei, Yeye He, Weiwei Cui, Ju Fan, Song Ge, Haidong Zhang, Dongmei Zhang, 和 Surajit Chaudhuri. 2024. “Auto-Formula: Recommend Formulas in Spreadsheets Using Contrastive Learning for Table Representations.” Proceedings of the ACM on Management of Data 2 (3): 1–27.

Chen, Wenhu, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou, 和 William Yang Wang. 2020. “TabFact: A Large-Scale Dataset for Table-Based Fact Verification.” In International Conference on Learning Representations . https://openreview.net/forum?id=rkeJRhNYDH .

Chen, Xinyun, Petros Maniatis, Rishabh Singh, Charles Sutton, Hanjun Dai, Max Lin, 和 Denny Zhou. 2021. “Spreadsheetcoder: Formula Prediction from Semi-Structured Context.” In International Conference on Machine Learning , 1661–72. PMLR.

Chen, Zhiyu, Wenhu Chen, Charese Smiley, Sameena Shah, Iana Borova, Dylan Langdon, Reema Moussa, 等. 2021. “FinQA: A Dataset of Numerical Reasoning over Financial Data.” In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing , 3697–3711.

Cheng, Zhoujun, Haoyu Dong, Ran Jia, Pengfei Wu, Shi Han, Fan Cheng, 和 Dongmei Zhang. 2022. “ FORTAP : 使用公式进行数值推理感知的表格预训练。” In 第60届计算语言学协会年会论文集（第一卷：长文） , edited by Smaranda Muresan, Preslav Nakov, 和 Aline Villavicencio, 1150–66. 爱尔兰都柏林: 计算语言学协会. https://doi.org/10.18653/v1/2022.acl-long.82 .

Cheng, Zhoujun, Haoyu Dong, Zhiruo Wang, Ran Jia, Jiaqi Guo, Yan Gao, Shi Han, Jian-Guang Lou, 和 Dongmei Zhang. 2022. “HiTab: 一个用于问答和自然语言生成的分层表格数据集。” In 第60届计算语言学协会年会论文集（第一卷：长文） , 1094–1110.

Cheng, Zhoujun, Tianbao Xie, Peng Shi, Chengzu Li, Rahul Nadkarni, Yushi Hu, Caiming Xiong, 等. 2023. “绑定语言模型到符号语言中。” In 第十届国际学习表征会议 . https://openreview.net/forum?id=lH1PV42cbF .

Dubey, Abhimanyu, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, 等. 2024. “The Llama 3 系列模型。” arXiv Preprint arXiv:2407.21783 .

Herzig, Jonathan, Pawel Krzysztof Nowak, Thomas Mueller, Francesco Piccinno, 和 Julian Eisenschlos. 2020. “TaPas: 通过预训练实现弱监督的表格解析。” In 计算语言学协会第58届年会论文集 , 4320–33.

Hu, Edward J, yelong shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, 和 Weizhu Chen. 2022. “Lo RA : 大型语言模型的低秩适应。” In 国际学习表征会议 . https://openreview.net/forum?id=nZeVKeeFYf9 .

Hui, Binyuan, Jian Yang, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Lei Zhang, Tianyu Liu, 等. 2024. “Qwen2. 5-Coder 技术报告。” arXiv Preprint arXiv:2409.12186 .

Jiang, Ruya, Chun Wang, 和 Weihong Deng. 2024. “Seek and Solve Reasoning for Table Question Answering.” arXiv Preprint arXiv:2409.05286 .

Jiang, Zhengbao, Yi Mao, Pengcheng He, Graham Neubig, 和 Weizhu Chen. 2022. “OmniTab: 使用自然和合成数据进行预训练以实现少样本表格问答。” In 北美计算语言学学会2022年会议论文集：人类语言技术 , 932–42.

Katsis, Yannis, Saneem Chemmengath, Vishwajeet Kumar, Samarth Bharadwaj, Mustafa Canim, Michael Glass, Alfio Gliozzo, 等. 2022. “AIT-QA: 航空业复杂表格上的问答数据集。” NAACL-HLT 2022 , 305.

Liu, Qian, Bei Chen, Jiaqi Guo, Morteza Ziyadi, Zeqi Lin, Weizhu Chen, 和 Jian-Guang Lou. 2022. “ TAPEX : 表格预训练通过学习神经 SQL 执行器。” In 国际学习表征会议 . https://openreview.net/forum?id=O50443AsCP .

Liu, Tianyang, Fei Wang, 和 Muhao Chen. 2024. “重新思考使用大型语言模型进行表格数据分析。” In 北美计算语言学学会2024年会议论文集：人类语言技术（第一卷：长文） , edited by Kevin Duh, Helena Gomez, 和 Steven Bethard, 450–82. 墨西哥城，墨西哥: 计算语言学协会. https://doi.org/10.18653/v1/2024.naacl-long.26 .

Mouravieff, Raphaël, Benjamin Piwowarski, 和 Sylvain Lamprier. 2024. “学习关系分解查询以从表格中回答问题。” In 计算语言学协会第62届年会论文集（第一卷：长文） , 10471–85.

Ni, Ansong, Srini Iyer, Dragomir Radev, Ves Stoyanov, Wen-tau Yih, Sida I. Wang, 和 Xi Victoria Lin. 2023. “LEVER: 学习通过执行验证语言到代码生成。” In 第四十届国际机器学习会议论文集 . ICML’23. 檀香山，夏威夷，美国: JMLR.org.

Pasupat, Panupong, 和 Percy Liang. 2015. “半结构化表格上的组合语义解析。” In 计算语言学协会第53届年会论文集及第七届自然语言处理国际联合会议论文集（第一卷：长文） , 1470–80.

Shi, Tianze, Chen Zhao, Jordan Boyd-Graber, Hal Daumé III, 和 Lillian Lee. 2020. “Lexico-Logical Alignments 在 SQL 查询语义解析中的潜力。” In 计算语言学协会发现论文集：EMNLP 2020 , 1849–64.

Su, Aofeng, Aowen Wang, Chao Ye, Chen Zhou, Ga Zhang, Guangcheng Zhu, Haobo Wang, 等. 2024. “TableGPT2: 一个包含表格数据集成的大型多模态模型。” arXiv Preprint arXiv:2411.02059 .

Wang, Zilong, Hao Zhang, Chun-Liang Li, Julian Martin Eisenschlos, Vincent Perot, Zifeng Wang, Lesly Miculicich, 等. 2024. “Chain-of-Table: 在推理链中演化的表格以实现表格理解。” In 第十二届国际学习表征会议 . https://openreview.net/forum?id=4L0xnS4GQM .

Wu, Xianjie, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, 等. 2024. “TableBench: 一个全面且复杂的表格问答基准。” arXiv Preprint arXiv:2408.09174 .

Yang, Zhen, Ziwei Du, Minghan Zhang, Wei Du, Jie Chen, Zhen Duan, 和 Shu Zhao. 2025. “三元组是关键：结构化使分解和验证在基于 LLM 的表格问答中更容易。” In 第十三届国际学习表征会议 . https://openreview.net/forum?id=UwcZEoNP19 .

Ye, Yunhu, Binyuan Hui, Min Yang, Binhua Li, Fei Huang, 和 Yongbin Li. 2023. “大型语言模型是多功能分解者：为基于表格的推理分解证据和问题。” In 第46届国际ACM SIGIR信息检索研究与发展会议论文集 , 174–84. SIGIR ’23. 纽约，纽约，美国: 计算机协会. https://doi.org/10.1145/3539618.3591708 .

Yin, Pengcheng, Graham Neubig, Wen-tau Yih, 和 Sebastian Riedel. 2020. “TaBERT: 预训练用于联合理解和处理文本和表格数据。” In 计算语言学协会第58届年会论文集 , 8413–26.

Yu, Donghan, Sheng Zhang, Patrick Ng, Henghui Zhu, Alexander Hanbo Li, Jun Wang, Yiqun Hu, William Yang Wang, Zhiguo Wang, 和 Bing Xiang. 2023. “Dec AF : 联合解码知识库问答的答案和逻辑形式。” In 第十一届国际学习表征会议 . https://openreview.net/forum?id=XHc5zRPxqV9 .

Zhang, Tianshu, Xiang Yue, Yifei Li, 和 Huan Sun. 2024. “TableLlama: 面向开放的大规模通用表格模型。” In 北美计算语言学学会2024年会议论文集：人类语言技术（第一卷：长文） , 6024–44.

Zhang, Xiaokang, Jing Zhang, Zeyao Ma, Yang Li, Bohan Zhang, Guanlin Li, Zijun Yao, 等. 2024. “TableLLM: 在真实办公场景中启用表格数据操作的LLMs。” arXiv Preprint arXiv:2403.19318 .

Zhang, Yunjia, Jordan Henkel, Avrilia Floratou, Joyce Cahoon, Shaleen Deep, 和 Jignesh M. Patel. 2024. “ReAcTable: 增强ReAct以实现表格问答。” Proc. VLDB Endow. 17 (8): 1981–94. https://doi.org/10.14778/3659437.3659452 .

Zhang, Zhehao, Yan Gao, 和 Jian-Guang Lou. 2024. “ \(E^5\) : 使用增强型 LLM s 实现零样本分层表格分析通过解释、提取、执行、展示和外推。” In 北美计算语言学学会2024年会议论文集：人类语言技术（第一卷：长文） , edited by Kevin Duh, Helena Gomez, 和 Steven Bethard, 1244–58. 墨西哥城，墨西哥: 计算语言学协会. https://doi.org/10.18653/v1/2024.naacl-long.68 .

Zheng, Yaowei, Richong Zhang, Junhao Zhang, Yanhan Ye, 和 Zheyan Luo. 2024. “ L lama F actory: 统一高效微调100多个语言模型。” In 计算语言学协会第62届年会论文集（第三卷：系统演示） , edited by Yixin Cao, Yang Feng, 和 Deyi Xiong, 400–410. 曼谷，泰国: 计算语言学协会. https://doi.org/10.18653/v1/2024.acl-demos.38 .