综述2024_Transformers for Tabular Data Representation: A Survey ofModels and Applications

大数据驱动AI

已于 2024-08-25 19:40:30 修改

阅读量602

点赞数 15

分类专栏： # A表格学习文章标签：数据挖掘

于 2024-05-06 13:03:32 首次发布

本文链接：https://blog.csdn.net/qq_45972323/article/details/138305741

版权

用于表格数据表示的 Transformer：模型和应用综述

1.代码
2.论文

1.代码

链接: code

// An highlighted block
var foo = 'bar';

2.论文

链接: paper

2.3puss3

如果要是我来写这篇文章，我会如何组织这个结构？
问题是怎么提出的、如果是我来做这个事情的话该怎么办，我应该可以用什么方法来实现、
实验我应该这么做，能不能比他做得更好、我怎么做没有往前走的部分。
--脑补出它整个流程是什么样子的，似乎是自己在做实验，写论文一样。

第三遍之后，关上文章也能会回忆出很多细节的部分和整体流程，之后在基于它做研究时（可以详详细细的复述一遍）。

2.3.1 存在什么问题

// A code block
var foo = 'bar';

2.3.2 有什么方法解决问题

// A code block
var foo = 'bar';

2.1puss1

2.1.1标题title

用于表格数据表示的 Transformer：模型和应用综述

2.1.2摘要abs

在过去的几年中，自然语言处理社区见证了基于 Transformer 的语言模型 (LM) 的自由文本神经表示方面的进步。鉴于表格数据中可用知识的重要性，最近的研究工作通过开发结构化数据的神经表示来扩展语言模型。在本文中，我们提出了一项分析这些努力的调查。我们首先根据传统的机器学习管道在训练数据、输入表示、模型训练和支持的下游任务方面抽象出不同的系统。对于每个方面，我们都描述并比较了所提出的解决方案。最后，我们讨论了未来的工作方向。

2.1.3结论conclusion

8 Future Directions
表格 LM 有效解决了经典 ML 模型（Borisov 等人，2021）带来的一些挑战，例如迁移学习和自我监督。然而，仍有一些挑战尚未解决。
Interpretability. 可解释性
只有少数系统公开其模型输出的合理性，例如 TAPAS、CLTR 和 MATE，因此模型的使用仍然是一个黑匣子。一个方向是使用注意力机制来导出解释（Serrano 和 Smith，2019；Dong 等人，2021）。查看特定层的自注意力权重和相对于输入标记的逐层传播，我们可以通过反向传播捕获每个单元值/元组对输出的影响（Huang 等人，2019）。例如，在 TFC 中，当决策是通过聚合多个单元得出的（例如求和或平均运算）时，提供解释至关重要。在这种情况下，基本的解释是显示导致最终真/假决策的所有单元格。
Error Analysis.误差分析
大多数研究关注的是下游评估分数，而不是通过人工评估错误。在下游任务级别，此分析可以追溯到错误分类的示例，以获取表格数据表示中问题的证据。例如，在答案错误的 QA 任务中，可能存在一种模式来解释这些错误是如何归因于系统混淆了具有相似含义的两列（例如，股票的最大值和最后一个值），从而在几个案例。
Complex Queries and Rich Tables.复杂的查询和丰富的表
一些系统（例如 TAPEX 和 MATE）通过添加分类层来处理聚合查询。但是，此类方法对于连接表的查询来说会失败。由于大多数工作都假设单个表作为输入，因此非常需要的方向是开发处理多个表的模型，例如，使用分类层来预测何时需要连接。此外，由于表格可能包含异构类型和内容，例如不一致的单位（例如千克和磅），系统应该能够处理这种在实践中大量存在的差异。此外，一个有趣的方向是进行一项研究，以展示表格语言模型在哪些情况下可以成功应用，而在查询数据时哪些情况会失败。
Model Efficiency. 模型效率
基于 Transformer 的方法计算成本昂贵，一些方法尝试通过使用局部敏感哈希来代替它来近似昂贵的注意力机制（Kitaev 等人，2020），通过低秩矩阵来近似它（Wang 等人，2020）），或应用内核以避免其计算复杂性（Katharopoulos 等人，2020；Choromanski 等人，2020）。虽然存在使 Transformer 在长上下文中更高效的方法（Tay 等人，2020），但所有优化都考虑非结构化文本输入。我们认为，结构化数据的高效转换器需要更多的牵引力，并借鉴文本对应物的想法，例如将注意力头限制在行/列上，这可以从结构化输入中自然获得（Eisenschlos 等人，2021），或者探索即时学习和增量调整（Ding et al., 2022）。
Benchmarking Data Representations. 对数据表示进行基准测试
没有通用的基准数据集可供研究人员在公平的竞争环境中评估和比较其数据表示的质量。目前的评估是外在的，即在下游任务层面，每个工作都有自己的假设。评估表示质量的内在方法，例如，用于词嵌入的那些（Bakarov，2018）可以包括预测给定表格表示的表格标题或识别功能依赖性。可以设计一组精确的测试来评估特定于数据的属性，例如基于变压器的模型的能力，该模型旨在对序列进行建模，以捕获表中设置的行和属性。此外，尚不清楚模型表示是否与表结构一致，是否有效地捕获了它们的关系。例如，给定同一行/列中的两个单元格值，它们的嵌入是否比来自不同行/列的值更接近？为此，按照文本语言模型的检查列表（Ribeiro et al., 2020），应该设计基本测试来衡量数据表示的一致性。
Data Bias. 数据偏差
人们认识到，LM 在模型参数中纳入了刻板印象、种族和性别方面的偏差（Nadeem 等人，2021 年；Vig 等人，2020 年）。这种偏差隐含地源自用于开发语言模型的训练语料库。因此，需要开发方法来克服这一缺点，例如，通过预过滤训练数据或校正表格 LM，类似于文本 LM 的持续努力（Liu 等人，2021b；Bordia 和 Bowman），2019）。
Green LMs
使用大规模变压器来学习 LM 需要大量计算，这会导致全球变暖（Strubell 等人，2020 年；Schwartz 等人，2020 年）。因此，重要的是要考虑增强或潜在的新技术，以限制表格语言模型的碳足迹，而不显着降低下游任务的性能。一项增强可以是通过删除冗余或信息较少的元组和表格来提高训练数据的大小。如何识别这些数据是一个关键挑战。

9 Conclusion
我们对开发基于转换器的表格数据表示的工作进行了调查。 我们引入了一个高级框架来对这些工作进行分类，并根据结构化数据建模的解决方案来描述每个步骤的特征，特别关注变压器架构的扩展。作为未来的工作，我们设想一个通用系统来执行实验基于我们的框架进行研究。系统的第一部分将开发具有替代设计选择的表格数据表示，而第二部分将在下游任务中评估它们。这项工作将有助于确定替代技术对最终应用性能的影响。

2.1.4研究背景intro

1 Introduction
许多研究人员正在研究如何使用神经模型来表示表格数据，以用于传统和新的自然语言处理（NLP）和数据管理任务。这些模型支持有效的数据驱动系统，超越了围绕一阶逻辑和 SQL 构建的传统声明性规范的限制。任务示例包括回答以自然语言表达的查询（Katsogiannis-Meimarakis 和 Koutrika，2021；Herzig 等人，2020；Liu 等人，2021a）、执行事实检查（Chen 等人，2020b；Yang 和 Zhu， 2021；Aly 等人，2021），进行语义解析（Yin 等人，2020；Yu 等人，2021），检索相关表（Pan 等人，2021；Kosti´c 等人，2021；Glass 等人，2021）、理解表格（Suhara 等人，2022；Du 等人，2021）以及预测表格内容（Deng 等人，2020；Iida 等人，2021）。事实上，表格数据包含大量任务所必需的知识，例如商业（Chabot 等人，2021）和医疗操作（Raghupathi 和 Raghupathi，2014；Dash 等人，2019），因此，开发表格表示的重要性。
鉴于 Transformer 在开发预训练语言模型 (LM) 方面取得的成功（Devlin 等人，2019 年；Liu 等人，2019 年），我们将分析重点放在该架构的扩展上，以生成表格数据的表示。这种基于注意力机制的架构已被证明在视觉（Dosovitskiy 等人，2020；Khan 等人，2021）、音频（Gong 等人，2021）和时间序列数据（Cholakov）上也取得了成功。和科列夫，2021）。事实上，预训练的 LM 用途广泛，从业者通过使用这些经过微调的模型解决了大量任务就证明了这一点，例如改进阿拉伯语意见和情感挖掘（Antoun 等人，2020 年；Badaro 等人，2020 年）。、2014、2018a、b、c、2019、2020）。最近的工作表明，当为表格数据开发语言模型时，类似的预训练策略会带来成功的结果。1
如图 1 所示，这项调查涵盖了 (1) 用于预训练表格数据神经表示的基于 Transformer 的编码器，以及 (2) 使用生成的 LM 来解决下游任务的目标模型。对于（1），训练数据由大量表格组成。一旦学习了该语料库的表示，就可以在（2）中将其用于给定（训练前未见的

最低0.47元/天解锁文章

大数据驱动AI

关注

15
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
综述2024_Transformers for Tabular Data Representation: A Survey ofModels and Applications

在过去的几年中，自然语言处理社区见证了基于 Transformer 的语言模型 (LM) 的自由文本神经表示方面的进步。鉴于表格数据中可用知识的重要性，最近的研究工作通过开发结构化数据的神经表示来扩展语言模型。在本文中，我们提出了一项分析这些努力的调查。我们首先根据传统的机器学习管道在训练数据、输入表示、模型训练和支持的下游任务方面抽象出不同的系统。对于每个方面，我们都描述并比较了所提出的解决方案。最后，我们讨论了未来的工作方向。
复制链接

扫一扫

专栏目录