前言
文本的相似性计算方法有很多,前面也讲了很多方式,下面继续讨论一种词语相似度的计算方法——基于知网的词语相似性计算。
词语语义
词语相似度也是没有一种明确的客观标准可用来衡量,相似度涉及到词语的词法、句法、语义、语用等,很难有一个统一的定义。
两类方法
词语相似度一般可分为两类方法,一种是基于 Ontology 或 Taxonomy 来计算,另外一种是基于大规模语料进行统计。
第一类方法一般是基于同义词词典,所有词组织在一棵或几棵树结构中,两个节点的路径长度即可作为语义距离。比如前面说到过的基于词林的相似度计算。
第二类方法需要大规模的语料,我们认为凡是语义相近的词,它们的上下文也应该相似,通过一定的概率模型可计算出词语的相关性,进而可计算相似性。
知网
《知网》由董振东先生研究十多载的成果,用于揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网含有丰富的词汇语义知识和世界知识,为自然语言处理提供了宝贵的资源。
知网结构
知网主要包含了“概念”和“义原”。概念是对词汇语义的一种描述,一个词也可以为几个概念。义原用于描述概念的最小意义单位。
《知网》一共采用了个 1500 义原,这些义原分为以下几个大类:
1) Event|事件
2) entity|实体
3) attribute|属性值
4) aValue|属性值
5) quantity|数量
6) qValue|数量值