大模型论文解读|| NeurIPS 2023超越AI表格理解的新里程碑，HYTREL模型的革新与突破

柏企

已于 2024-05-17 22:36:49 修改

阅读量716

点赞数 14

分类专栏：人工智能大模型论文解读文章标签：人工智能语言模型 AI编程

于 2024-03-12 11:19:58 首次发布

本文链接：https://blog.csdn.net/huake6/article/details/136646554

版权

人工智能同时被 3 个专栏收录

85 篇文章

订阅专栏

大模型

85 篇文章

订阅专栏

论文解读

64 篇文章

订阅专栏

开篇：表格数据的独特性及其在AI中的应用

    表格数据是一种独特的数据形式，它以二维矩阵的形式普遍存在于网页、文档和数据库中。与图像、音频和纯文本等其他数据模态相比，表格数据具有其独特的结构特性。例如，大多数表格对行和列的排列顺序是不敏感的，即行列的任意排列变换后，表格仍保持等价。此外，表格中单列的数据通常语义相似，而同一行的单元格则共同描述了表格中一个样本的属性。这些属性使得表格数据在人工智能（AI）领域中的应用变得尤为重要。

    在AI中，表格数据的理解可以促进多种任务，如表格类型分类、表格相似性匹配和从表格中提取知识（例如列注释）。受到预训练语言模型在自然语言任务中成功的启发，近年来的研究提出了基于表格的语言模型（TaLMs），通过自监督预训练生成表格的表达性表示，以便在下游任务中使用。

论文概览：HYTREL模型的提出背景与主要贡献

1. 提出背景

    尽管基于表格的语言模型（TaLMs）在多个下游任务中显示出了有效性，但许多模型并未充分考虑表格数据中存在的行/列排列不变性、层次结构等特性。为了解决这些限制，本文提出了HYTREL模型，这是一种表格语言模型，它通过使用超图（hypergraphs）来捕捉表格数据的排列不变性和其他三种结构属性。在超图中，表格单元格构成节点，每一行、每一列以及整个表格中共同出现的单元格用于形成三种不同类型的超边。

2. 主要贡献

HYTREL模型在某些条件下对表格数据表现出最大的不变性，即两个表格通过HYTREL获得相同的表示，当且仅当这两个表格除了行/列排列之外是相同的。

在四个下游任务上的实证结果表明，HYTREL在最小预训练的情况下始终优于其他竞争基线，展示了将与表格数据相关的归纳偏置整合到表示中的优势。

定性分析表明HYTREL能够吸收表格结构，为单元格、行、列和整个表格生成鲁棒的表示。

    HYTREL模型即使在没有预训练的情况下也能接近最先进的性能，并且与先前工作相比，在预训练的迭代次数上极为高效，进一步证明了HYTREL在建模表格数据结构属性方面的优势。

    综上所述，HYTREL模型通过将表格数据的独特结构属性纳入考虑，提供了一种新的表格数据表示学习方法，其理论和实证分析均支持其在表格理解任务中的有效性和效率。

论文标题: HYTREL: Hypergraph-enhanced Tabular Data Representation Learning

项目地址：https://github.com/awslabs/hypergraph-tabular-lm

公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!

 HYTREL模型简介

1. 表格数据的结构特性

    表格数据具有独特的结构特性，这些特性在HYTREL模型的设计中得到了体现。首先，大多数表格对行和列的排列顺序是不敏感的，即行或列的任意排列通常不会改变表格的含义。其次，同一列中的数据在语义上是相似的，例如它们通常具有相同的语义类型。同样，一行中的单元格共同描述了表格中的一个样本，这些单元格之间存在着不可分割的关系。此外，表格中的单元格、行、列之间的交互不仅仅是成对的，它们可以具有更高阶的多边关系。最后，表格中的信息通常以层次化的方式组织，其中包含了表格的层次结构信息。

点击关注公众号 AI论文解读  

设置星标 获取最新AI论文解读

2. HYTREL模型的核心概念

    HYTREL模型的核心在于使用超图（hypergraphs）来捕捉表格数据的结构特性。在HYTREL模型中，表格被转换为一个超图，其中表格的单元格构成节点，而每一行、每一列以及整个表格中共同出现的单元格形成三种不同类型的超边。这种超图结构允许模型自然地包含行/列排列的不变性，并且能够捕捉同一列或行中单元格之间的交互，以及整个表格中的高阶交互。通过超边的聚合，还可以保留表格的层次结构。

    HYTREL模型通过理论分析和实证结果展示了模型在建模表格数据时的优势。模型在一定条件下展现出最大的不变性，即如果两个表格通过HYTREL得到相同的表示，那么这两个表格除了行和列的排列顺序外是相同的。在四个下游任务上的评估表明，HYTREL在最少的预训练下就能够一致地超越其他竞争基线，这突显了将表格数据的归纳偏差整合到表示中的优势。此外，定性分析还展示了HYTREL能够吸收表格结构，生成对单元格、行、列和整个表格的鲁棒表示。

HYTREL的理论基础

1. 超图的构建与表格数据的表示

    在HYTREL模型中，表格数据被转换为超图的形式，以此来捕捉表格的结构特性。在这个超图中，表格的单元格构成节点，而每一行、每一列以及整个表格的单元格共同构成三种不同类型的超边。通过这种方式，超图能够自然地包含行/列排列的不变性，同时也能够捕捉到同一列或行中单元格之间的交互作用。此外，超图结构还能够捕捉到高阶（而非仅仅是成对的）交互关系，以及通过超边的聚合来保留表格的层次结构。

2. 最大不变性的理论分析

    HYTREL模型的理论分析表明，在某些条件下，它能够在建模表格数据时实现最大不变性。也就是说，如果两个表格通过HYTREL得到相同的表示，那么这两个表格除了行/列的排列不同之外，其他方面是相同的。这种最大不变性的属性意味着，即使在行和列的排列发生变化时，表格的表示也保持不变，这有助于模型在不同的下游任务中实现更好的泛化性能。

HYTREL模型的实现细节

1. 节点与超边的嵌入

    在HYTREL模型中，每个单元格被视为一个节点，并且每个节点都与三个超边相连：它所在的列超边、行超边和表格超边。节点的嵌入是通过将单元格中的词条输入嵌入层并对词条嵌入进行平均来获得的。对于不同类型的超边，模型使用不同的表格内容进行初始化：列超边使用对应表头的所有词条，表格超边使用整个标题，而行超边在没有语义信息时则随机初始化。

2. 超图编码器的结构

    HYTREL模型采用了一个结构感知的变换模块（HyperTrans）来编码超图。HyperTrans编码器能够编码表格内容、结构以及表格元素（包括单元格、表头、标题等）之间的关系。HyperTrans模块的每一层由两个超图注意力块（HyperAtt）和一个超边融合块组成。第一个HyperAtt块是节点到超边的注意力块，它将信息从节点聚合到超边。然后，一个超边融合模块（多层感知机网络，MLP）传播上一步的超边信息。第二个HyperAtt块则是超边到节点的注意力块，它将信息从超边聚合回节点。与传统的自注意力机制不同，HYTREL使用一种集合注意力机制，以保持表格的排列不变性。

预训练与微调策略

1. 预训练目标与数据集

    HYTREL模型的预训练采用了两种自监督目标：基于表格内容的ELECTRA目标和基于表格结构的对比目标。预训练数据集包括来自Wikipedia和Common Crawl的表格，总计约2700万个表格，其中1%用于验证。为了提高效率，预训练时对大型表格进行了截断，保留最多30行和20列，每个表格的标题、列名和单元格值最多保留64个令牌。这种截断仅出于效率考虑，并不影响HYTREL处理大型表格的能力。

2. 微调任务与数据集介绍

    微调阶段，HYTREL模型被用作表格编码器，针对下游表格相关任务进行微调。选择了四个依赖于表格表示的任务进行评估：列类型注释（CTA）、列属性注释（CPA）、表格类型检测（TTD）和表格相似性预测（TSP）。这些任务的数据集分别是TURL-CTA、TURL-CPA、WDC Schema.org Table Corpus和PMC。微调时，HYTREL模型的表格元素表示用于进行预测，同时也对随机初始化的HYTREL模型进行了微调以进行比较。

实验结果与分析

1. HYTREL与其他基线模型的性能比较

    在CTA和CPA任务上，HYTREL模型在没有预训练的情况下即可接近最先进的性能，并且在使用ELECTRA和对比目标预训练后，性能进一步提升。在TTD和TSP任务上，HYTREL模型同样展现出了优越的性能。值得注意的是，ELECTRA目标在CTA、CPA和TTD任务上的表现优于对比目标，而在TSP任务上，对比目标则有助于HYTREL模型的性能提升。这些结果表明，预训练目标对不同任务的帮助程度不同。

2. HYTREL的预训练效率分析

    HYTREL模型的预训练效率分析表明，在最初几个预训练周期内，模型性能迅速提升，并在大约5个周期后趋于饱和。与之相比，如TaBERT等基线模型需要更长的预训练时间（例如，TURL需要100个周期，TaBERT需要10个周期）。这一发现表明，HYTREL在建模表格结构方面的训练效率更高，不需要大量的预训练即可实现性能的显著提升。

HYTREL模型的可视化分析

1. 排列不变性的可视化验证

    HYTREL模型的设计旨在捕捉表格数据的结构特性，其中包括对行和列的排列不变性。为了验证这一特性，研究者们对HYTREL模型进行了一系列的可视化分析。通过对5000个验证数据集中的表格进行排列变换，包括行变换、列变换以及行列独立变换，并测量了这些变换前后表格元素（单元格、行、列和整个表格）表示的欧几里得距离（L2范数）。结果显示，HYTREL模型对这些排列变换几乎总是保持不变，因为其具有显式的不变性保持属性。相比之下，TaBERT模型对排列变换是敏感的，特别是当启用更多行（K=3）时，引入不同排列的L2范数值会增加。此外，列变换对L2范数的影响大于行变换，行列组合变换的影响最大。这一发现证实了HYTREL在保持表格排列不变性方面的有效性。

2. 表格层次结构的学习效果

    HYTREL模型还旨在学习表格的层次结构，并将其融入到表示中。为了展示HYTREL模型是否学习到了表格的层次结构，研究者们使用t-SNE方法对相同的5000个验证表格的不同元素进行了可视化。在随机初始化后，不同的表格元素在可视化空间中无法被清晰区分。然而，在HYTREL模型编码后，可以开始观察到不同表格元素的明显差异。特别是，单元格表示开始聚集在一起，可以与高级别的表格元素（表格、列和行）区分开，后者在表示空间中占据了各自的位置。通过使用ELECTRA预训练目标，所有表格元素都可以很好地分离，显示出它将层次结构融入到其潜在表示中。对比地，使用对比学习预训练的HYTREL虽然能够区分列和行，但与ELECTRA预训练相比，它无法很好地分离表格表示。这也部分解释了ELECTRA预训练在CTA、CPA和TTD任务上表现更好的原因。

讨论：HYTREL的优势与局限性

    HYTREL模型通过使用超图来模拟表格数据，成功地捕捉了表格的排列不变性和层次结构等结构特性。理论分析和实证结果均表明，这种对结构特性的建模可以提高模型在多个下游任务上的性能，并且即使在没有预训练的情况下，HYTREL也能接近最先进的性能。此外，HYTREL在预训练时期的性能提升速度较快，仅需约5个训练周期即可达到饱和，这表明HYTREL在建模表格结构方面的训练效率较高。

然而，HYTREL也存在一些局限性。首先，HYTREL作为一个表格编码器，本身无法处理联合文本和表格理解任务，如表格问答和表格到文本的生成。虽然可以为这些任务添加文本编码器或解码器，但这可能会引入额外的复杂性，使得评估模型对表格结构特性建模的有效性变得更加复杂。其次，当前的模型结构设计针对的是具有简单列结构的表格，无法处理具有复杂层次列结构的表格。此外，HYTREL没有考虑跨表格的关系。尽管研究者们相信超图可以推广到模拟复杂的列结构和跨表格交互，但这些方面的研究仍留待未来探索。

结论与未来展望

    在本研究中，我们提出了一种新颖的表格数据表示学习模型HYTREL，它通过将表格数据建模为超图来捕捉表格的结构属性。HYTREL模型的核心在于其对表格中行/列排列不变性的处理能力，以及对表格的层次结构的建模。通过在超图中将单元格作为节点，以及将每行、每列和整个表格中共同出现的单元格形成的超边，HYTREL能够有效地捕捉表格数据的四个结构特性：行/列排列不变性、列内语义相似性、单元格间的高阶多边关系，以及表格数据的层次性。

    我们的理论分析和实证结果均表明，HYTREL在模拟表格数据时具有最大的不变性。在特定条件下，如果两个表格通过HYTREL获得相同的表示，则这两个表格仅在行/列排列上有所不同。此外，HYTREL在四个下游任务上的表现一致优于其他竞争基线模型，即使在最小的预训练情况下也是如此。这进一步证明了将与表格数据相关的归纳偏差整合到表示中的优势。

    未来的研究可以在多个方向上进行扩展。首先，HYTREL作为一个表格编码器，目前尚未能够处理联合文本和表格理解任务，如表格问答和表格到文本的生成。虽然可以通过添加文本编码器或解码器来处理这些任务，但这可能会引入额外的复杂性，从而影响我们关于模拟表格结构属性有用性假设的评估。其次，当前的模型结构设计针对的是具有简单列结构的表格，尚不能处理具有复杂层次列结构的表格。此外，HYTREL还没有考虑跨表格的关系。尽管我们相信超图可以推广到模拟复杂的列结构和跨表格交互，但我们将这些方面留作未来研究。

    在实践中，我们建议在处理大型表格时使用下采样策略，这样可以在不损害性能的情况下显著提高效率。此外，我们还注意到，行/列的任意排列可能导致过度不变性问题，最终损害表格的语义。因此，未来的工作还需要探索如何在保持表格语义的同时，有效地处理排列不变性。

总之，HYTREL模型通过对表格结构的深入理解和建模，展现了在表格数据表示学习领域的巨大潜力。我们期待未来的研究能够在此基础上进一步提升模型的性能，并扩展到更多的表格理解任务中。