python读取doc文件 语义识别_自然语言处理(NLP)语义分析--文本相似度

本文介绍了自然语言处理中句子相似度计算的几种方法,包括编辑距离、杰卡德系数、TF计算、TF-IDF计算和Word2Vec计算,通过实例展示了Python的实现,并分析了它们的适用场景。
摘要由CSDN通过智能技术生成

文本相似度及案例

​ 在做自然语言处理的过程中,我们经常会遇到需要找出相似语句的场景,或者找出句子的近似表达,这时候就需要把类似的句子归到一起,这里面就涉及到句子相似度计算的问题。

基本方法

句子相似度计算一共归类了以下几种方法:

编辑距离计算

杰卡德系数计算

TF 计算

TF-IDF 计算

Word2Vec 计算

下面来一一了解一下这几种算法的原理和 Python 实现。

编辑距离计算

编辑距离,英文叫做 Edit Distance,又称 Levenshtein 距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

例如我们有两个字符串:string 和 setting,如果我们想要把 string 转化为 setting,需要这么两步:

第一步,在 s 和 t 之间加入字符 e。

第二步,把 r 替换成 t。

所以它们的编辑距离差就是 2,这就对应着二者要进行转化所要改变(添加、替换、删除)的最小步数。

那么用 Python 怎样来实现呢,我们可以直接使用 distance 库:

#编辑距离

import distance

def edit_distance(s1, s2):

return distance.levenshtein(s1, s2)

strings = [

&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值