针对simple question
word embedding同时采用两种level的embedding
再分别对question,entity和predicate建模,都是利用词序列过GRU得到表征,计算余弦相似度
candidate entity生成方法:
1.一个实体与问题中的n-gram完全match,加入候选集
2.如果一个n-gram被包含在更大的n-gram中,且大的n-gram与某一个图谱中的entity匹配,则丢弃小的,除非大的n-gram以"the, a, an, of, on, at, by"开头
3.如果exact match没有被找到,那么将图谱中entity的label与某一个n-gram的编辑距离小于2的也加入候选集
4.如果有许多entity match了一个n-gram,那么按照entity在图谱三元组中以subject出现的次数排序,取前{5,10,400}个
candidate predicate生成方法:
有两种方法,方法一:
top entity作为subject的三元组中的predicate作为候选集
方法二:
考虑与top entity有相同label的实体,这些实体作为subject 的三元组中的predicate作为候选集
负例的生成对于训练结果影响很大
本文介绍了一种基于词嵌入和图谱的复杂问答系统构建方法,通过双层级词嵌入和GRU建模问题、实体及谓词,利用余弦相似度计算匹配度。详细阐述了候选实体和谓词生成策略,包括精确匹配、编辑距离匹配和基于图谱的排序筛选,以及负例生成对训练的重要性。
3236

被折叠的 条评论
为什么被折叠?



