文本的相似度 Sentence Similarity

本文介绍了两种文本相似度计算方法:欧式距离和余弦相似度。通过举例说明,展示了如何将文本转化为词频向量,并计算两文本之间的距离和相似度。然而,这种方法忽视了词的权重,对于关键词和通用词的重要性没有区分,为解决此问题,后续可以引入tf-idf技术。
摘要由CSDN通过智能技术生成

以下内容是通过学习b站“攻城狮之家”,写下的笔记。视频的老师讲的逻辑清晰容易理解,推荐给大家!

本文介绍两种计算文本相似的方法,一是计算距离(欧式距离),二是余弦相似度。

一、计算距离(欧式距离)

  1. 公式

d = |s1-s2| = √(x1-x2) ²+(y1-y2) ²

     2.举例说明

S1 = “我们 今天 去 爬山”

S2 = “你们 昨天 跑步”

S3 = “你们 又 去 爬山 又 去 跑步”

所有出现的词的集合为S,则S=[我们,今天,去,爬山,你们,昨天,跑步,又]

用向量表示S1,S2,S3,即在S中的词出现频率

S1 = (1,1,1,1,0,0,0,0)

S2 = (0,0,0,0,1,1,1,0)

S3 = (0,0,2,1,1,0,1,2)

d(S1,S2)=√(1²+1²

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值