论文研读-AI4VIS-表格语义解析-词汇逻辑对齐SQUALL

weixin_43413013

已于 2022-09-18 21:44:29 修改

阅读量1.1k

点赞数

文章标签：算法人工智能

于 2022-09-18 21:23:19 首次发布

本文链接：https://blog.csdn.net/weixin_43413013/article/details/126859147

版权

SQUALL是一个基于11276个WikiTableQuestions的语义解析数据集，提供问题与SQL查询的手动词汇对齐。通过监督注意力和列预测策略，模型在WTQ测试集上取得54.1%的执行精度，显著优于仅使用逻辑形式的弱监督模型。词汇对齐注释比逻辑形式成本更低，但能显著提高模型性能。

摘要由CSDN通过智能技术生成

前言

SQUALL（SQUALL =“SQL+QUestion pairs ALigned Lexically），基于 11276个WikiTableQuestions英语问题，将问题与SQL查询示例进行对齐，形成的数据集。

1 论文概述

1.1 动机

大规模数据集将自然话语与逻辑形式配对，使得语义分析的监督方法取得了重大进展。但仅提供逻辑形式并不表示单个单词或短语与逻辑形式标记之间的重要细粒度关系，阻碍了语义解析模型的进一步提升。

1.2 解决方案

1.2.1 数据集SQUALL

提出了第一个具有手动词汇到逻辑对齐的大规模高质量语义解析数据集。

以数据集WIKITABLEQUESTIONS（WTQ）为基础，包含数据表、关于表的英语问题和基于表的答案。通过提供专家注释来丰富WTQ训练数据中可以转化为SQL语言的11276个实例子集，不仅包括SQL中的目标逻辑形式，还包括输入问题标记（例如，“多少”）和它们相应的SQL片段（例如，COUNT(. . .)）之间的标记对齐。图1显示了两个SQUALL实例。
在这里插入图片描述

1.2.2 两种训练策略

我们提出了两种训练策略，使用我们的比对来改进基准模型。
1. 监督注意力
在编码和解码过程中产生模仿人类判断的注意力权重的监督注意力。监督注意力可以提高机器翻译中的对齐和翻译质量。
2. 列预测
用于推断问题片段引用的数据表中的哪个列。

1.3 结果

使用BERT特征，我们的模型在WTQ测试集上达到54.1%的执行精度，超过了之前弱监督的最新状态48.8%（其中弱监督意味着只能访问答案，而不是问题的逻辑形式）。
与对齐实用问题更密切相关的是，在5倍交叉验证中，我们添加的细粒度监督比仅使用逻辑形式的监督模型提高了4.4%的执行精度；消融研究表明，问题标记和列之间的映射帮助最大。此外，我们构建了oracle模型，可以在测试期间访问完全对齐，以显示我们数据的未实现潜力，可以看到高达23.9%的绝对逻辑形式准确性。

词汇对齐对训练解析器来说是经济有效的：词汇对齐比逻辑形式的注释花费的时间少一半，我们可以通过仅对齐训练集中5%的逻辑形式，将执行准确率提高2.5个百分点。

2 任务：基于表的语义解析

输入x=（q，T）由关于表T的问题q组成，语义解析器的目标是再现对于q的目标逻辑形式LF-y*，（因此具有高逻辑形式LF精度）或者在不太严格的弱监督设置中，生成任何查询LF-y0，当针对T执行时，能产生正确的输出z*（因此具有高执行精度）

弱监督模型：训练实例由问题和答案对组成（x，z*），学习从x到z的映射
监督模型：训练实例为（x，y），如 WikiSQL、Spider，学习从x到y*的映射
毫不奇怪，监督模型比弱监督模型更精确。

训练监督模型仍然具有挑战性：x和y都是结构化的，因此模型通常分多个步骤生成y，但训练数据无法揭示x的哪些部分生成y的哪些部分以及它们如何组合。

添加有监督训练可以提高弱监督的准确性，我们探讨了更细粒度的监督是否有进一步的帮助。由于没有提供细粒度监督的大型数据集（据我们所知），我们引入了SQUALL。

3 SQUALL数据集

WIKITABLEQUESTIONS(WTQ），是一个大型问答数据集，包含了2108个半结构化维基百科表格中的多样性和挑战性的众包问答对。大多数问题不仅仅是简单的表格单元格查找，而且是高度组合的，这一事实促使我们研究问题和逻辑形式之间的词汇映射。我们手工生成WTQ查询的SQL，并将问题标记与相应的SQL查询片段对齐。