针对simple question
word embedding同时采用两种level的embedding
再分别对question,entity和predicate建模,都是利用词序列过GRU得到表征,计算余弦相似度
candidate entity生成方法:
1.一个实体与问题中的n-gram完全match,加入候选集
2.如果一个n-gram被包含在更大的n-gram中,且大的n-gram与某一个图谱中的entity匹配,则丢弃小的,除非大的n-gram以"the, a, an, of, on, at, by"开头
3.如果exact match没有被找到,那么将图谱中entity的label与某一个n-gram的编辑距离小于2的也加入候选集
4.如果有许多entity match了一个n-gram,那么按照entity在图谱三元组中以subject出现的次数排序,取前{5,10,400}个
candidate predicate生成方法:
有两种方法,方法一:
top entity作为subject的三元组中的predicate作为候选集
方法二:
考虑与top entity有相同label的实体,这些实体作为subject 的三元组中的predicate作为候选集
负例的生成对于训练结果影响很大