字符串相似性的几种度量方法

最新推荐文章于 2024-03-14 16:53:47 发布

VIP文章火贪三刀

最新推荐文章于 2024-03-14 16:53:47 发布

阅读量3.8w

点赞数 13

分类专栏：自然语言处理文章标签：字符串相似性

本文链接：https://blog.csdn.net/shijing_0214/article/details/53100992

版权

无论是做科学研究，还是工程项目，我们总是会碰上要比较字符串的相似性，比如拼写纠错、文本去重、上下文相似性等。度量的方法有很多，到底使用哪一种方法来计算相似性，这就需要我们根据情况选择合适的方法来计算。这里把几种常用到的度量字符串相似性的方法罗列一下，仅供参考，欢迎大家补充指正。

1、余弦相似性（cosine similarity）
余弦相似性大家都非常熟悉，它是定义在向量空间模型（VSM）中的。它的定义如下：

其中，A,B为向量中间中的两个向量。
在使用它来做字符串相似性度量的时候，需要先将字符串向量化，通常使用词袋模型（BOW）来向量化。举个例子如下：

String1 = “apple”
String2 = “app”

则词包为｛’a’,’e’,’l’,’p’｝，若使用0,1判断元素是否在词包中，字符串1、2可以转化为：

StringA = [1111]
StringB = [1001]

那么，根据余弦公式，可以计算字符串相似性为：0.707。

2、欧氏距离（Euclidean distance）
欧氏距离大家非常熟悉，定义在向量空间模型中，计算使用欧氏距离公式：

3、编辑距离（edit distance）
编辑距离，有的地方也会称为Levenshtein距离，表示从一个字符串转化为另一个字符串所需要的最少编辑次数，这里的编辑是指将字符串中的一个字符替换成另一个字符，或者插入删除字符。例如上例String1通过删除’l’与’e’转化为String2，所以其最小编辑次数为2。
编辑距离的核心就是如何计算出一对字符串间的最小编辑次数，考虑到问题的特点，我们可以使用动态规划的思想来计算其最小编辑次数，根据维基百科：两个字符串 $a=a_1a_2\cdots a_n，b=b_1b_2\cdots b_m$ 的编辑距离递归计算公式如下：

其中，w表示增删改三种操作的权重，一般定义为：

w={ 1,0,若有操作无操作 $w =\begin{cases} 1, & \text{若有操作} \\ 0, & \text{无操作} \\ \end{cases}$

di0=i $d_{i0} = i$ 表示从

最低0.47元/天解锁文章

火贪三刀

关注

13
点赞
踩
66

收藏

觉得还不错? 一键收藏
3
评论
字符串相似性的几种度量方法

无论是做科学研究，还是工程项目，我们总是会碰上要比较字符串的相似性，比如拼写纠错、文本去重、上下文相似性等。度量的方法有很多，到底使用哪一种方法来计算相似性，这就需要我们根据情况选择合适的方法来计算。这里把几种常用到的度量字符串相似性的方法罗列一下，仅供参考，欢迎大家补充指正。1、余弦相似性（cosine similarity）余弦相似性大家都非常熟悉，它是定义在向量空间模型（VSM）中的。它的
复制链接

扫一扫