webinvoke 缺少命令空间_[p05]语义解析缺少数据标注怎么办[2]?

9e78393d87362bcb7366443e75704deb.png
(v0 20-03-04) Merging Weak and Active Supervision for Semantic Parsing

1. 语义解析

将自然语言命令(NL)映射到可执行的含义表示(MR,meaning representation),然后在特定环境中执行这些指令以获取用户所需的结果。这篇和【米饭遥:[p02]语义解析缺少数据标注怎么办[1]?】中用LF(Logical Form)符号不同。

2. 弱监督

语义解析器的监督训练需要NL / MR对,并由领域专家进行标注释,收集成本很高。

弱监督语义解析旨在通过放宽对MR的标注要求来解决此问题,可以表述为强化学习问题[不只是如此],而不需要标注黄金MR序列z。即,向语义解析器提供执行模型k(即环境,例如数据库),和黄金序列的执行结果a

对于SQL问答,即只需要提供自然语言查询语句q、数据库查询系统k,和正确语句查询出的结果a即可。不需要完全标注的SQL语句z,而是系统通过搜索得到可以获得奖励的伪黄金序列。

学习目标是 maximize the probability of the correct answer a by marginalizing over all candidate MRs that execute to a::

ebbb09b866d99e9fd8ba7ecbc49db6e5.png

弱监督语法分析器通常使用EM-like[#todo]方法进行训练, 以最大程度地生成这些高奖励MR。

难点

虽然弱监督成本较低,但仅从成对的NL和预期的执行结果中学习了弱监督的语义解析器,使MR变得很隐蔽,很难训练。

它要求解析器以非常弱的学习信号搜索较大的空间,并且很难避免以错误的方式获得正确答案的虚假MR。

  • 探索指数级空间[Exploration of an Exponentially-large Space]
    • 搜索空间无限或指数增长,一般采样k个,或通过复杂方法约束搜索空间。
    • 为复杂的、高度合成的输入话语推断MR仍是挑战。
  • 虚假MR[Spurious MRs]
    • 潜在MR的搜索空间包含伪造样本,尽管语义上不正确,但可以执行得到正确的结果

3. 结合

研究了弱监督与主动学习之间的交集,这使学习者可以主动选择示例并查询手动注释作为额外的监督,以改进在弱监督下训练的模型。

观察:

  1. 尽管混合了假的序列.弱监督语义解析器对简单的自然语言q还是可以找到对应gold MR, 这意味着有效训练不需要标注所有数据。
  2. 如果没有更高reward的MR可以被解析器找到, EM-like 弱监督优化就会阻塞[stall], 此时对于训练集中的所有示例,具有正确答案的已发现MR集合均保持不变。然后等式2将收敛到局部最优。如果解析器可以发现具有正确执行结果的新MR,即使对于一小部分训练示例(等式的优化),也可以增加高奖励MR的集合。 换句话说,有可能仅对训练数据的一小部分进行一些额外的监督就可以防止停滞并恢复优化过程。
  3. 为弱监督的解析器提供额外的监督并不需要完全标注的MR序列,来发现复杂话语的高奖励MR或排除歧义输入的虚假MR。例如,对于how many 问题, 只需要告诉解析器需要count操作符,即可帮助找到更优解,排除虚假序列。

动机:

每当弱监督的训练停顿时,WASSP允许解析器选择训练集的一小部分并查询额外的监督,并使用收到的额外监督来帮助继续训练过程。

步骤:

step1: 训练弱监督语义解析, P(zˆ|q; θ), 利用训练集D,训练并通过公式2收敛,收集黄金序列 Z^

Step2: 通过主动样本选择启发式,在固定定预算范围内选择训练集D'⊆D的一小部分,并向注释者查询D'中示例的额外监督;

Step3: 收到注释后,更新Z'迄今为止针对D'中每个训练实例探索的高奖励MR的集合。如果额外监督的形式是带注释的MR,则这仅相当于将Zˆ设置为仅包含带注释的MR。如果是其他形式,可以过滤or其他.

3e848f0b7c701959262068802d034f88.png

Merging Weak and Active Supervision for Semantic Parsing

图片由Elias Sch.Pixabay上发布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值