词语相似度计算

最新推荐文章于 2019-07-18 10:47:45 发布

weixin_33769125

最新推荐文章于 2019-07-18 10:47:45 发布

阅读量435

点赞数 1

文章标签：人工智能

词语相似度计算

　　　　　　　　　　　　　　　　　　　　　　　　　　　　当事物可以计算的时候就产生了智能

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　----Alert

一、词语相似度

　　词义相似度计算在很多领域中都有广泛的应用，例如信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等等。国内很多论文主要是基于同义词林和知网来计算的。本文的词语相似度计算是基于《同义词词林》的。

二、同义词林介绍

《同义词词林》是梅家驹等人于1983年编纂而成，这本词典中不仅包括了一个词语的同义词, 也包含了一定数量的同类词, 即广义的相关。《同义词词林》的编写年代久远，之后没有更新。哈工大花费了大量的人力物力完成了一部具有汉语大词表的哈工大信息检索研究室《同义词词林扩展版》，《同义词词林扩展版》收录词语近7万条。原版的《同义词词林》目录如下：

哈工大《同义词词林扩展版》保留《同义词词林》原有的三层分类体系，并在此基础上对词语继续细分类，增加两层，得到最终的五层分类体系，这样词典中的词语之间就体现了良好的层次关系，如下图表示的词语树形结构：

例如：“东南西北”的编码为Cb02A01=

C是第1层、b是第二层、02是第三层、A是第四层、01是第五层，=号有特殊的意义。

词语的编码规则如下：

表中的编码位是按照从左到右的顺序排列。第八位的标记有3种，分别是“=”、“#”、“@”， “=”代表“相等”、“同义”。末尾的“#”代表“不等”、“同类”，属于相关词语。末尾的“@”代表“自我封闭”、“独立”，它在词典中既没有同义词，也没有相关词。

三、词语相似度

定义1 语义相似度。给定两个词汇w1和w2,它们之间的相似度通过

Sim(w1,w2):S*S->[0,1],表示集合S中的两个词汇w1和w2的相似程度。

简单的说相似度函数是个值域在[0,1]间的函数。

本文的计算公式参考了《基于同义词词林的词语相似度计算方法》一文，相似度函数计算公式如下：

若两个义项的相似度用Sim表示，n表示所在分枝层分支数，k表示两个分支间的距离。

1.若两个义项不在同一查树上：

Sim(A,B) = f

如：人 Aa01A01=和实物 Ba01A01=

2.若两个义项在同一查树上：

1) 若在第2层分支

Sim(A,B) = a*cos(n*pi/180)*[(n-k+1)/n]

如：人 Aa01A01= 和少儿 Ab04B01=

由于A开头的编码个数为1309个，所以n=1309;在第2层，

人的编码是a,少儿的编码是b所以k=1

2) 若在第3层分支

Sim(A,B) = b*cos(n*pi/180)*[(n-k+1)/n]

如：人 Aa01A01= 和老弟 Aa03A03=

Aa开头的编码个数为55个，所以n=55;第3层人的编码为01，老弟的编码为03，所以k=2

3) 若在第4层分支

Sim(A,B) = c*cos(n*pi/180)*[(n-k+1)/n]

4) 若在第5层分支

Sim(A,B) = d*cos(n*pi/180)*[(n-k+1)/n]

a、b、c、d、f参数由实验测得，程序里使用的参数如下：

a=0.65、b=0.8、c=0.9、d=0.96、f=0.1

一个词可能有多个编码，相似度的计算取最大值，如：

词语“骄傲”的编码有“Da13A01”，“Ee34D01”;“仔细”的编码有“Ee26A01”，“Ee28A01”。

分别计算相似度为:

Sim(Da13A01, Ee26A01)=0.1; Sim(Da13A01, Ee28A01)=0.1;

Sim(Ee34D01, Ee26A01)=0.483920;

Sim(Ee34D01, Ee28A01)=0.510077;

所以“骄傲”和“仔细”的相似度为0.510077

程序中的的测试词、比较词如果没在词林出现则相似度为0，

测试词只能填一个词，多个比较词由逗号分隔。

程序的计算结果如下：

《基于同义词词林的词语相似度计算方法》论文的计算结果如下：

成年人和市民跟这两项的相似度有出入是因为使用的词林版本中这两个词所在分支层的分支数不一样所致。

《基于同义词词林的词语相似度计算方法》论文地址http://wenku.baidu.com/view/0b1b7d5e804d2b160b4ec030.html

程序下载地址：

http://download.csdn.net/detail/huandaohack/4557989

weixin_33769125

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_33769125 CSDN认证博客专家 CSDN认证企业博客

码龄9年

172: 原创

-: 周排名

183万+: 总排名

139万+: 访问

: 等级

8216: 积分

6503: 粉丝

255: 获赞

23: 评论

1550: 收藏

私信

关注

热门文章

最新评论

各种气候数据的下载（以下载青岛地区40年间月平均气温数据的下载为例）【转】...
2401_85122388: 羲和要钱吧
更改Windows用户文件夹（Users）默认位置到其它盘
c1300765164: 不建议Win11采用这个方法，除非不准备继续更新。否则，硬链接将导致一些更新失败。可以用Win11自带功能修改存储位置全部默认为D，可以节省一些以往的下载文件。实习不行。向everyting屈服吧
各种气候数据的下载（以下载青岛地区40年间月平均气温数据的下载为例）【转】...
羲和能源气象大数据平台: 推荐一些我常用的气象数据网站：中国气象局 https://www.cma.gov.cn/ 作为全国气象工作的政府行政管理职能，负责全国气象工作，主要履行公共气象服务以及气象防灾减灾、应对气候变化、开发利用气候资源、人工影响天气等业务、服务管理等职能。提供权威气象政务信息、天气预报、气象预警、气候变化、防灾减灾、气象科普等权威官方信息。羲和能源大数据平台 https://xihe-energy.com 提供全球任意单点位置或地域平均统计的历史40年至未来7日的11种气象小时级数据和API接口，及以此为基准生成的风电、光伏发电功率数据。同时还可以提供多种地理信息数据和260余种更多属性数据。通过对数据的处理分析计算，还提供地区新能源资源分析、光伏倾角优化、光伏电站系统方案设计及项目建议书一键生成等功能。 NESDIS http://www.nesdis.noaa.gov/ NEDIS 是美国NOAA国家卫星资料中心，拥有四套卫星系统：GOES，POES，DMSP，NPOESS。其两颗静止卫星在距地球22,450英里处，追踪灾害性天气和太阳活动。450英里处两颗极轨环绕地球，观测大气风场和温度，为运行预报模式准备，此外还观测海温用于气候研究。 NASA https://www.nasa.gov/ 美国航空航天局（英语：National Aeronautics and Space Administration，简称NASA），又称美国宇航局、美国太空总署，是美国联邦政府的一个行政性科研机构，负责制定、实施美国的太空计划，并开展航空科学暨太空科学的研究。NASA是世界上最权威的航空航天科研机构，与许多国内及国际上的科研机构分享其研究数据。欧洲中尺度天气预报中心 http://www.ecmwf.int 包括34个国家支持的国际性组织，是当今全球独树一帜的国际性天气预报研究和业务机构。其前身为欧洲的一个科学与技术合作项目。1975年ECMWF正式成立，总部设在英国的Bracknell。
PC端页面适应不同的分辨率的方法
以对_: 感谢分享，解决了我眼前的疑惑
各种气候数据的下载（以下载青岛地区40年间月平均气温数据的下载为例）【转】...
m0_72640678: 框选之后results 不显示东西怎么回事呢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。