以下内容是通过学习b站“攻城狮之家”,写下的笔记。视频的老师讲的逻辑清晰容易理解,推荐给大家!
本文介绍两种计算文本相似的方法,一是计算距离(欧式距离),二是余弦相似度。
一、计算距离(欧式距离)
- 公式
d = |s1-s2| = √(x1-x2) ²+(y1-y2) ²
2.举例说明
S1 = “我们 今天 去 爬山”
S2 = “你们 昨天 跑步”
S3 = “你们 又 去 爬山 又 去 跑步”
所有出现的词的集合为S,则S=[我们,今天,去,爬山,你们,昨天,跑步,又]
用向量表示S1,S2,S3,即在S中的词出现频率
S1 = (1,1,1,1,0,0,0,0)
S2 = (0,0,0,0,1,1,1,0)
S3 = (0,0,2,1,1,0,1,2)
d(S1,S2)=√(1²+1²