作者信息
本文的目的是利用多语种百科词典BabelNet建立一个多语种义元知识库,即为多种语言的词标记义元。本文构造了一个小规模的种子知识库,提出了利用不同信息的两种模型。
研究背景
单词是人类语言中可以独立存在的最小元素,但不是最小的不可分割的语义单元。实际上,单词的含义可以分为较小的部分。例如,“人”的含义之一可以表示为“人”,“男性”和“成人”的含义的组合。
在语言学中,将“名素”(Bloomfield 1926)定义为人类语言的最小语义单位。一些语言学家认为,任何语言中所有单词的含义都可以由一组有限的预定义义素来分解,这与通用语义原语的概念有关。词素含蓄在词语中。为了在实际应用中利用它们,人们手动注释带有预定义音素的单词以构建音素知识库(KB)。
图1:HowNet中“丈夫”一词的Sememe注释。
知网(HowNet)它使用大约2,000种独立于语言的成语来注释超过10万个中文和英文单词。图1举例说明了如何在HowNet中用字素注释单词。与大多数语言知识库(例如WordNet)通过词级关系来解释单词的含义不同,诸如Sememe一样,古韵文库(Komenet)还提供了使用词下义素的词义定义。
Sememe KB具有两个独特的优势。第一个是它们的准音词语义组合性,这赋予了它们特别适合集成到神经网络中的功能。第二个特征是,有限的音素可以代表无限的含义,这使得音素在低数据体制下非常有用,例如,改善了低频词的嵌入。实际上,已经证明,sememe KBs对于各种NLP任务都是有益的,例如单词义消歧和情感分析。大多数语言都没有sememe KB,这会阻止这些语言的NLP应用程序受益于sememe知识。
动机
然而,HowNet中英文注释原语的数量有限,仅占WordNet英文单词的32.8%,除中文和英文之外的其他语言中的单词没有原语注释。这使得在自然语言处理领域的应用受到很大的限制,这也是义原主要用于汉语自然语言处理任务的原因。
为了解决这个问题,有人提出了跨语言词汇的意义预测,目的是通过双语词汇表示对齐来预测其他语言词汇的意义。然而,这种方法一次只能预测一种语言中的一个词。它的效率不高,不能从意义项目层面预测义元的意义。
方法
与跨语言词汇语义预测的思想不同,本文提出了一种基于BabelNet的多语言语义知识库构建方案。BabelNet是一个多语种百科全书词典,由BabelNet语法集组成,每个语法集包含不同语言中不同意义的单词。图2给出了一个例子,这个语法集包含英语、汉语、法语、德语和其他语言,意思是“丈夫”。
图2:ID为bn:00045106n的BabelNet同义词集的注释符号。 同义词集包含不同语言的单词(多语言同义词),具有相同的含义“女人嫁给的男人”,并且它们在右侧共享四个义位。
在一个语法集中,不同语言中的单词应该用相同的意思标记。也就是说,直接标注BabelNet synset的词义可以同时标注多种语言中的词义,从而有效地构建多语言词义源知识库。基于BabelNet的多语种义元知识库的构建方案除了效率高外,还具有其他优点:直接在义项层标注义元;BabelNet中包含的丰富信息可以用于义元预测,包括Wikipedia、WordNet、FrameNet等。
-
BabelSememe 数据集
为了促进大规模多语种外生知识库的建设,本文首先标记了种子知识库babelsemee。它包含大约15000个语法集,每个语法集都被手动标记为多个含义。因为之前很少使用Yoshihara的结构,为了节省成本,Babelsemee的注释暂时忽略了Yoshihara的结构。图2显示了对应于“丈夫”的语法集的4个含义。表1显示了babelsemee的统计数据。
表1:BabelSememe中具有不同POS标签的BabelNet同义词集的统计信息
-
BabelNet synset 义原预测形式化定义
利用种子知识库,下一步是基于未标记的synset对synogen进行标记,然后将种子知识库扩展到最终的大规模语义源知识库中。本文首先提出并正式定义了BabelNet synset 义原预测任务:
定义为BabelNet的某个Synset“b”的预测义元集合。当P(s | b)给定时,的预测得分是沂源预测得分的阈值。也就是说,当一个synset对一元进行预测时,首先用某种方法计算出当前synset对所有被预测的一元的得分,然后选择预测得分高于某一阈值的一元作为最终的预测结果。
-
基于语义表示的 Synset 义原预测
这种方法的思想非常直观,即具有相似含义的synset应该具有相似的含义,这与推荐系统中常用的协同过滤方法非常相似。通过BabelNet提供的NASAR synset嵌入余弦相似度来度量synset之间的相似度。
-
基于关系表示的 Synset 义原预测
第二种方法是基于关系表示。BabelNet包含许多句法集之间的关系,如同义、反义和从属。同时,HowNet还定义了义元之间的几种关系,因此自然地,synset与以synset为标志的义元之间的关系应该是对应的,利用这个性质进行原始预测。
图3:BabelNet同义词集之间的关系与各个音位之间的关系如何一致的示例。 注意,我们仅在BabelNet同义词集中显示英语同义词。
在此基础上,本文建立了一个包含两类节点的语义图:synset和义原。共有三种关系:合集之间的关系、义原之间的关系、合集与义原之间的标记关系(hava_sememe)。在知识地图中将义元预测转化为实体预测任务,即给定一个头部实体-一个由语义源预测的义元集合,给定一个具有语义元的关系,预测尾部实体义元。本文利用知识图任务中最经典的样条模型来学习这些实体的表示和关系,以便进行预测。此外,考虑到synset预测任务的特殊性,引入了额外的语义等式约束。一个词的语义可以由它的意义组成。Synset也有类似的属性。因此,文中提出了synset与语义之和具有语义等价关系,并在模型训练过程中引入了额外的语义等价约束。
图 4 synset 与其义原之和存在语义相等关系
丈夫的句法集加上语义平等关系等于义元嵌入的总和。因此,方法二期间的总损失函数是二者之和。
此外,这两种方法在本文中通过简单的顺序倒数加权加法进行了集成:
实验结果
在本文中,作者使用建立的babelsemee数据集来评估所提出的synset预测模型。为了进行比较,我们设置了两种基线方法:
(1)Logistic回归(LR),它也使用synset的语义表示(NASARI嵌入)(2)基于关系表示的TransE。
表2:测试集上所有模型的总体和POS标签特定的SPBS结果。
通过观察图5,6,7所示的实验结果,发现方法1 SPBS-SR和方法2 SPBS-RR优于两个基线模型,并且集成模型集成获得了最佳结果。
图5:不同程度范围内的同义词集的SPBS结果。 六个范围内的同义词集的数量分别为72、340、231、110、84和131。
图6:Semset的SPBS结果,其同义词为不同范围。 六个范围内的同义词集的数量分别为218、239、179、179、88和65
图7:同义词的同义词集的平均SPBS结果,其程度在不同范围内。 七个范围内的音素数分别为1186、235、68、47、32、26和28。
本文还进行了一系列的定量分析,探讨了影响synset预测结果的因素。研究发现,易源的预测结果与synset和易源度(即方法2语义图中的节点度)呈正相关,且随着sysnet senseogen数目的增加先增大后减小。
总结
论文地址或源码下载地址:关注“图像算法”wx公众号 回复"Sememe",本文首先提出了一种基于BabelNet的多语种语义源知识库的构建思想,用以标注其他语言中的语义词。并提出了BabelNet synset义元预测任务和两种不同类型的预测方法,对该任务进行了大量的定量分析。