《BabelNet:一个覆盖范围很广的多语言语义网络的自动构建、评估和应用》阅读笔记
摘要:
方法的关键是整合来自worldnet和wikipedia的词典和百科知识,以及利用机器翻译来丰富所有语音的词汇信息资源。我们首先在新的和现有的标注数据集上进行体外实验,以显示babelnet的高质量和覆盖范围。然后,我们证明我们的词汇资源可以成功地运用于单词和跨语语义消歧:由于其广泛的词汇覆盖面和新颖的语义关系,我们能够在三个不同的半评估任务上获得最新的结果。
该方法的核心是使用多种方法估计映射概率,包括基于简单的词包和更高级的图形表示的方法。
材料资源: 收集WordNet中的所有关系以及感兴趣语言中的所有wikipedia来建立Babel语法集之间的关系:为了编码语法集之间的关联强度,我们使用基于骰子系数的关联度度量来计算它们的关联度。
BabelNet建设方法:
BabelNet将知识编码为一个标记有向图G=E,其中V是节点集,即play等概念和Shakespeare等命名实体,ev×R×V是连接概念对的边集(例如play是戏剧构图)。每个边都用来自R的语义关系标记,即{-a部分}。重要的是,每个node v v都包含一组不同语言的词汇化概念。我们称这种多语言词汇化的概念为巴别塔句法集。 BabelNet中的概念和关系是从英语、WordNet和Wikipedia中最大的可用语义词典中获取的。为了构建BabelNet图,我们在不同阶段收集:
a、 在WordNet中,