Text2SQL论文-11:Data-Anonymous Encoding for Text-to-SQL Generation

在文本到SQL的生成中,输入话语通常包含大量与表中的列名或单元格相关的标记,称为表相关标记,将输入语句中的标记映射到SQL查询中的常量叫做词汇问题。词汇问题可以表述为一个顺序标记问题,称为匿名化,其中输入话语中的每个标记都将被标记为与列名、单元格或无相关。这些与表相关的标记对于下游的神经语义解析器来说是很麻烦的,因为它带来了复杂的语义。

  

如果能在神经语义解析之前减少词法问题,训练难度会大大减轻。原因有两个:

第一,通过在神经语义分析器之前匿名化输入话语中的表相关标记,我们可以隐藏表相关标记的复杂语义。

第二,不同的输入话语具有不同的表相关标记,但是具有相同的结构,在它们被输入到解析器之前,可以被简化为相同的匿名话语。

论文使用基于学习的方法来减少词汇问题,即匿名化与表相关的标记。

考虑到没有用于匿名化的标记数据,建议提取出现在SQL查询中的列名和单元格的集合,并使用该集合作为监督。利用这种隐含的监管的另一个好处是,我们可以使优化模型考虑与组件的关系。此外,为了弥补我们的模型是一个顺序标记模型,而从查询中提取的监督是一个无序集的差距,我们利用策略梯度(威廉姆斯,1992)来训练模型。
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值