TAPAS：通过预训练实现弱监督表格解析（论文解读）

最新推荐文章于 2024-08-21 09:45:59 发布

YannicKilcher

最新推荐文章于 2024-08-21 09:45:59 发布

阅读量124

点赞数 2

文章标签：神经网络计算机视觉 AI编程自然语言处理人工智能

本文链接：https://blog.csdn.net/YannicKilcher/article/details/141179377

版权

这篇文字介绍了一篇名为“TAPAS: Weekly Supervised Table Parsing via Pre-training”的论文，该论文探讨了如何使用预训练模型来回答基于表格的自然语言问题。

论文中的表格包含了摔跤手的信息，包括姓名、冠军次数、冠军总时长以及排名。表格本身信息丰富，但论文重点在于如何利用表格回答不同类型的自然语言问题。

文章列举了三种问题类型：

单元格选择问题: 答案直接存在表格中的某一个单元格，例如“哪个摔跤手获得冠军次数最多？”
标量答案问题: 答案需要通过计算才能获得，例如“前两位摔跤手的平均冠军时长是多少？”
歧义答案问题: 答案是表格中的一个数字，但需要根据问题进行判断，例如“有多少名摔跤手获得过冠军？”

论文旨在通过训练模型，使其能够理解表格内容并根据自然语言问题找到对应的答案。这对于处理表格数据和信息检索具有重要的意义。

论文作者为Jonathan Herzig, Pavel Christoph Novak, Thomas Miller, Francesco Piccino和Julian Martin Eisenschloss。

回答关于表格信息的复杂问题很困难。没有两个表格是相同的，有时你想要的答案甚至不在表格中，需要从表格中的一部分单元格计算出来。令人惊讶的是，这个模型可以通过一些巧妙的输入编码和损失工程自己解决这一切。论文：https://arxiv.org/abs/2004.02349代码：https://github.com/google-research/tapas摘要：回答表格上的自然语言问题通常被视为语义解析任务。为了减轻完整逻辑形式的收集成本，一种流行的方法侧重于弱监督，包括指代而不是逻辑形式。然而，从弱监督训练语义解析器存在困难，此外，生成的逻辑形式仅用作检索指代之前的中间步骤。在本文中，我们提出了 TAPAS，一种无需生成逻辑形式即可回答表格上的问题的方法。TAPAS 从弱监督训练，通过选择表格单元格并可选地对选择应用相应的聚合运算符来预测指代。TAPAS 扩展了 BERT 的架构，将表格编码为输入，从维基百科抓取的文本段落和表格的有效联合预训练初始化，并进行端到端训练。我们使用三个不同的语义解析数据集进行了实验，发现 TAPAS 在 SQA 上将最先进的准确率从 55.1 提高到 67.2，并且在 WIKISQL 和 WIKITQ 上与最先进的模型相当，但具有更简单的模型架构。我们还发现，在我们的设置中，从 WIKISQL 到 WIKITQ 的迁移学习非常简单，达到了 48.7 的准确率，比最先进的水平高出 4.2 个百分点。

YannicKilcher

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
TAPAS：通过预训练实现弱监督表格解析（论文解读）

这篇文字介绍了一篇名为“TAPAS: Weekly Supervised Table Parsing via Pre-training”的论文，该论文探讨了如何使用预训练模型来回答基于表格的自然语言问题。论文中的表格包含了摔跤手的信息，包括姓名、冠军次数、冠军总时长以及排名。表格本身信息丰富，但论文重点在于如何利用表格回答不同类型的自然语言问题。文章列举了三种问题类型：单元格选择问题: 答...
复制链接

扫一扫