题目:Confidence Modeling for Neural Semantic Parsing
神经语义解析的置信度建模
abstract
造成不确切的三种原因:模型不确定性,数据不确定性和输入不确定性。并设计了各种指标来量化这些因素,这些度量随后用来估计置信度分数。
introduction
目的是预测一个东西是否可信。语义解析通常用于构建自然语言接口,例如对话系统。在这种情况下,重要的是要知道系统是否以较高的置信度理解输入查询,以便更可靠地做出决策模型确实确实会产生不确定的输出,我们希望我们的框架能够识别出这些输出。
给定一个结果,我们计算其置信度,将其作为回归模型的特征,该回归模型根据保留的数据进行训练以适合预测F1分数。在测试的过程中,回归模型的输出就是置信分数。此外,我们提出了一种基于反向传播的方法,该方法允许通过识别输入的哪些部分有助于不确定的预测来解释模型行为。
是在两个语义解析数据集(IFTTT, DJANGO)进行测试。
Related Work
据我们所知,语义分析的置信度模型在很大程度上尚未得到开发。在神经网络中对不确定性进行建模的常见方案是将分布分布在网络的权重上,
模型是类似encoder-decoder模型。
置信度评估:
1.模型的参数或结构包含不确定性,这会使模型对p(a | q)的值信心不足。例如,训练数据中的噪声和随机学习算法本身会导致模型不确定。我们在下面描述捕获不确定性的指标:
第一个指标使用的是dropout,在图1中,我们在
q
t
,
a
t
q_t ,a_t
qt,at的部分加入了dropout,几乎1234都加入了drop操作,
2. 数据的不确切姓:
训练数据的覆盖范围也会影响预测的不确定性。如果输入q与训练分布不匹配或包含未知单词,则很难可靠地预测p(a | q)。
1)我们在训练数据上训练语言模型,并使用它来估计输入p(q | D)的概率,其中D表示训练数据。
2)没有出现在训练集的tokes会影响最终准确性,所以我们使用输入q中的未知单词的数量作为一个指标。
3. 输入不确定性
即使模型可以可靠地估计p(a | q),输入本身也可能是不明确的。例如,航班9点的输入可以解释为航班时间(9am)或航班时间(9pm)。在这些预测之间进行选择非常困难,尤其是在两者都有可能的情况下。