1. Introduction
单关系事实问句转换为KB查询语句有三个难点,作者针对这三个难点一一给出了解决方案。
首先,同一个问题有多种表达,作者是用来LSTM来编码问题。
其次,许多KB实体并未在训练集中出现,为了预测这些实体,左右采用了字母层面的编码形式,这个方法相较于单词层面个的编码,能更有效的生成新词。
第三,实体和关系太多,在大规模的KB上进行预测难度很大,所以本文没有使用大规模的输出层,而将输出改成了问题和KB的语义相似度。
2. Related Work
本文受三方面工作的启发:
首先,语义解析能把问题装换为结构化的KB查询语言,但是这些方法多采用word-level的编码,所以会在测试时遇到未见过的单词(out-of-vocabulary (OOV) problem)。
其次characterlevel modeling 能够解决OOV的问题。
最后,characterlevel modeling被证明能解决很多机器学习的问题。
3. model
模型分为三个部分
3.1 编码question
可以分成两个步骤:
1)使用one-hot对question中每一个字符编码,包括空格、标点符号、original cases
2)使用两层gated-feedback LSTM从左到右编码
3.2 KB中实体和predicates编码
1)使用one-hot对字符进行编码
2)实体和predicates使用两个不同的CNN编码
3.3 KB 查询的解码
3.3.1 使用基于注意力机制的LSTM
3.3.2 语义相似度评分