TableRAG: 借助LM处理含有海量数据的表格-CSDN博客

本文链接：https://blog.csdn.net/m0_59163425/article/details/143665958

今天分享的是由台湾国立大学联合Google Cloud AI提出的能够处理具有海量数据的表格的RAG框架：TableRAG。

论文链接: https://arxiv.org/pdf/2410.04739

介绍

最近，语言模型（LMs）的发展在表格理解任务中取得了显著进展。通过对整个表格的输入，这些模型能够进行深入的分析，然而面对大型表格时，这种方法却暴露出多重挑战。

首先，许多流行的语言模型，例如LLaMA和GPT系列，存在上下文长度的限制，处理一个包含100列和200行的中等大小表格时，生成的标记数超过了其处理能力。此外，长上下文还可能导致推理能力下降，形成“迷失在中间”的现象。同时，表格大小的增加也显著提升了计算成本和延迟，使得在大规模场景下应用这些模型变得更加困难。

为了解决这些问题，Google Deepmind等团队联合提出了TableRAG方法。

TableRAG通过整合模式检索和单元格检索的方法，从表格中提取关键信息，使程序辅助的LM代理能够在提供的信息基础上高效解决查询。这一方法不仅避免了对整个表格的编码需求，还通过独立编码每个单元格的方式，解决了传统方法在处理大规模表格时面临的挑战。同时，TableRAG采用查询扩展技术，以确保数据提取的全面性和相关性。

上图展示了不同表格提示技术的比较：

Read Table (a): 虽然可以读取完整数据，但对于大型表格来说往往不可行。
Read Schema (b): 仅读取列名和数据类型，这会导致重要内容信息的损失。
Row-Column Retrieval ©: 通过编码行和列并根据与问题的相似性选择部分数据，但仍然面临处理能力的瓶颈。
Schema-Cell Retrieval (d): 通过根据与LM生成的查询相关性编码并检索列名和单元格，显著提高了编码和推理的效率。

框架

TableRAG 是一种结合了检索增强生成（RAG）技术的可扩展框架，旨在提高基于语言模型（LM）的表格理解能力。上图显示了该模型的整体框架，该方法的核心组件包括：

1. 表格查询扩展 (Tabular Query Expansion)

目的：精确识别查询所需的列名和单元格值，以便有效操作表格。
方法：
生成单独的查询来提取列名和单元格值，而不是将问题作为单一查询。例如，对于问题"What is the average price for wallets?"，生成针对“product”和“price”的列名查询，以及单元格值如“wallet”的查询。利用这些查询从表格中检索相关的模式和单元格值。

2. Schema检索 (Schema Retrieval)

目的：获取与查询相关的列名及其属性信息，以提供表格的结构化概述。
方法：
使用预训练编码器 fenc 对生成的查询进行编码，并与编码的列名进行匹配以确定相关性。检索的数据包括列名、数据类型和示例值；对数值和日期时间类型的列显示最小和最大值，对分类列展示最常见的类别。结合每个查询的前K个检索结果，并根据与查询的相似度进行排序。

3. 单元格检索 (Cell Retrieval)

目的：提取回答问题所需的特定单元格值，提高LM的表格理解能力。
方法：模式检索完成后，系统提取回答问题所需的具体单元格值。这涉及构建一个唯一列-值对的数据库，表示为，其中是第列的列名。通过单元格检索实现以下功能：
Cell Identification：精确检测表格中关键词的存在，确保有效索引。例如，它能够区分“tv”和“television”，确保检索和操作的准确性。
Cell-Column Association：将特定单元格与相关列名关联，方便进行属性检索。例如将“wallet”与“description”列关联，从而实现行索引。

在需要单元格值进行索引时，单元格检索尤为有益。

4. 具有编码预算的单元格检索 (Cell Retrieval with Encoding Budget)

目的：在处理大表格时保持TableRAG的可行性。
方法：
引入单元格编码预算B，如果唯一值数量超过B，则限制编码为B个最常见的列-值对。
编码预算仅影响单元格检索过程，后续求解器仍可通过已知的列名访问单元格。

5. 程序辅助求解器 (Program-Aided Solver)

目的：使用与查询相关的列名和单元格值，提升LM与表格的交互能力。
方法：
结合LM代理，例如ReAct，能够以编程方式与表格互动。
利用TableRAG和ReAct的协同工作，处理表格查询并实现最佳性能。

总结

TableRAG是一种基于检索增强生成的框架，专为语言模型在表格理解任务中而设计。该方法的主要特点在于其创新性地结合了模式检索和单元格检索，通过生成针对列名和单元格值的独立查询，从而精准提取表格中的关键信息。

与传统方法相比，TableRAG显著降低了处理大规模表格时的计算成本，同时避免了信息损失。其优势在于提高了数据编码的效率和检索的精确性，使得语言模型能够在处理更大规模的表格时，依然保持卓越的推理能力，从而在大型表格理解中实现了最新的性能突破。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述