简介
对于一个已识别出的命名实体,可能属于多个不同粒度的类别,比如“高加索牧羊犬”可能属于的类别包括“狗”、“犬科动物”、“动物”等。命名实体的上位词(Hypernym)指示了其类别,上述的“狗”、“犬科动物”、“动物”都是“高加索牧羊犬”的上位词。目前被广泛使用人工构建的语义词典中就有这样的上下位关系,比如英文的WordNet、汉语的知网、同义词词林(扩展版)。
但是这些词典资源有限,很多研究者尝试才用自动的方法抽取上位词,以往的上位词抽取研究中,常用的方法主要包括:基于模式匹配的方法、基于统计分布相似度的方法、基于在线百科的方法。
其中,基于模式匹配的方法效果不好,主要源于匹配模式有限或有交叉。基于统计分布相似度的方法都基于一个假设:下位词的上下文词汇是其上位词上下文词汇的一个真子集。例:“熊猫”的上下文一定也是“动物”的上下文,但反过来,“动物”的上下文不一定是“熊猫”的上下文,也包括了其他种类动物的上下文。但这样的假设太强,并不能总成立。基于在线百科的方法是用百科页面中的类别标