文本相似度指标-基于词汇的相似度量

Jaccard相似度

J ( A , B ) J(A,B) J(A,B)表示有限样本集之间的相似程度:

J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ = ∣ A ∩ B ∣ ∣ A ∣ + ∣ B ∣ − ∣ A ∩ B ∣ J(A,B)=\frac{|A∩B|}{|A∪B|}=\frac{|A∩B|}{|A|+|B|-|A∩B|} J(A,B)=ABAB=A+BABAB

Jaccard相似度:

d j ( A , B ) = 1 − J ( A , B ) = ∣ A ∪ B ∣ − ∣ A ∩ B ∣ ∣ A ∪ B ∣ = A Δ B ∣ A ∪ B ∣ d_j(A,B)=1-J(A,B)=\frac{|A∪B|-|A∩B|}{|A∪B|}=\frac{AΔB}{|A∪B|} dj(A,B)=1J(A,B)=ABABAB=ABAΔB

当A=B时,Jaccard相似度为1;当|A∩B|=0时,Jaccard相似度为0.

Jaccard相似度的取值范围为[0,1],值越大表示越相似。代码如下:

def Jaccard(words1, words2):
    words1_cut, words2_cut = set(jieba.cut(words1)), set(jieba.cut(words2))
    interNum = 0
    for word in words1_cut:
        if word in words2_cut:
            interNum += 1
    return float(interNum/(len(set(words1_cut))+len(set(words2_cut))-interNum))

余弦相似度

c o s ( X , Y ) = X ⋅ Y ∣ X ∣ ∣ Y ∣ cos(X,Y)=\frac{X·Y}{|X||Y|} cos(X,Y)=XYXY

Dice系数

s = 2 ∣ A ∩ B ∣ ∣ A ∣ + ∣ B ∣ s=2\frac{|A∩B|}{|A|+|B|} s=2A+BAB

def Dice(words1, words2):
    words1_cut, words2_cut = set(jieba.cut(words1)), set(jieba.cut(words2))
    interNum = 0
    for word in words1_cut:
        if word in words2_cut:
            interNum += 1
    return float(2*interNum/(len(set(words1_cut))+len(set(words2_cut))))

匹配系数

o v e r l a p ( X , Y ) = ∣ X ∩ Y ∣ m i n ( ∣ X ∣ , ∣ Y ∣ ) overlap(X,Y)=\frac{|X∩Y|}{min(|X|,|Y|)} overlap(X,Y)=min(X,Y)XY

def overlap(words1, words2):
    words1_cut, words2_cut = set(jieba.cut(words1)), set(jieba.cut(words2))
    interNum = 0
    for word in words1_cut:
        if word in words2_cut:
            interNum += 1
    return float(2*interNum/min(len(set(words1_cut)),len(set(words2_cut))))
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

路过的风666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值