中文句子相似度计算思路

这里主要面向初学者介绍句子相似度目前主流的研究方向。

从词到句子,这是目前中文相似度计算的主要思想。而由这个-思想引申出来的算法却非常多,这里面向初学者介绍比较容易实现的方法。

这里要介绍的是二分法计算句子相似度。这个算法实现简单,思路清晰由此出现的技术分类变化万千,主要的变化是分组,也成为分集合。二分法的思想是:集合一和集合二是两个词的集合,集合一的每一个词与集合二的每一个词求相似度,找出最大的一个来相加,然后反过来,集合二到集合一求相似度,找出最大的相加。这样就得到一个相似度的和,这个值再除以所有词的个数就形成二分法求相似度了。这里解释两个问题,第一个就是为什么要反过来求一次,其实就是怕两个集合个数不相同,会引发误差。第二个问题,为什么说变化相当多,有些读者已经想到了,怎么划分集合一和集合二!这是一个大问题,把一个句子划分为多个集合,这里面的算法会非常复杂也是现在研究的重点之一,这里提供两个思路。

思路一,权重。通过各种方法划分每个词在句子中的权重,最典型的代表就是把提取到的关键词作为一个集合,其他的所有词作为一个集合。

思路二,地位。通过判断词语在当前句子中的地位,处于相同地位的词分别作为一个集合。最简单的例子就是,把所有名字作为集合,动作作为集合等等进行计算。


词到句子,这是一种基于语义的计算方法。另一种刚刚起步的就是基于语法的相似度计算方法。

这种方法在目前来看是很有前景的研究方向,因为在日常用语中不会出现太过复杂的句子结构,不同语义的句子往往语法上有不小的差别,语义差距越大语法差异越大,因此在处理日常会话中语法相似度就有着令人惊异的处理效率和处理准确度。这方面还处于刚刚起步的阶段,研究也多是基础性的,成熟的思想不多论文也很少。给出一点简单的例子,例如词序相似度和词型相似度。这种相似度可靠性不高属于基础性,有兴趣的可以继续探索。越是空白领域更容易出成果。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值