词语之间的语义相似度怎么算_怎么计算词语的相似性(附github)

前言

文本的相似性计算方法有很多,前面也讲了很多方式,下面继续讨论一种词语相似度的计算方法——基于知网的词语相似性计算。

词语语义

词语相似度也是没有一种明确的客观标准可用来衡量,相似度涉及到词语的词法、句法、语义、语用等,很难有一个统一的定义。

两类方法

词语相似度一般可分为两类方法,一种是基于 Ontology 或 Taxonomy 来计算,另外一种是基于大规模语料进行统计。

第一类方法一般是基于同义词词典,所有词组织在一棵或几棵树结构中,两个节点的路径长度即可作为语义距离。比如前面说到过的基于词林的相似度计算。

第二类方法需要大规模的语料,我们认为凡是语义相近的词,它们的上下文也应该相似,通过一定的概率模型可计算出词语的相关性,进而可计算相似性。

知网

《知网》由董振东先生研究十多载的成果,用于揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网含有丰富的词汇语义知识和世界知识,为自然语言处理提供了宝贵的资源。

知网结构

知网主要包含了“概念”和“义原”。概念是对词汇语义的一种描述,一个词也可以为几个概念。义原用于描述概念的最小意义单位。

《知网》一共采用了个 1500 义原,这些义原分为以下几个大类:

1) Event|事件

2) entity|实体

3) attribute|属性值

4) aValue|属性值

5) quantity|数量

6) qValue|数量值

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值