字符串相似度

最新推荐文章于 2021-01-04 10:38:09 发布

psmlbj

最新推荐文章于 2021-01-04 10:38:09 发布

阅读量882

点赞数

分类专栏：机器学习文章标签：聚类字符串核函数编辑距离 LCS

本文链接：https://blog.csdn.net/psmlbj/article/details/51767223

版权

本文探讨了在对代码输出字符串进行聚类时，使用Levenshtein距离、最长公共子序列（LCS）和字符串核函数等方法的优缺点。Levenshtein距离对短字符串过于敏感，LCS避免了某些错误聚类，而字符串核函数考虑了子串跨度，但计算量大。实验结果显示，LCS在聚类效果上表现较好。

摘要由CSDN通过智能技术生成

最近要对字符串进行聚类,这些字符串都是代码的输出,尝试了几种字符串相似度度量的方法:

Levenshtein距离

字符串核函数

LCS/max(len(str1,str2))

其中相似度用公式distance=1.0/similarity-1转换为距离.使用层次聚类方法.

下面是要聚类的字符串

    points = ['aabbccdd', 'aaddccbb', 'aaaaccbb', 'bbbbccdd',
              'eeeebbccdd', 'aaeebbeeccdd',
              'aaaaaaaa', 'aabbbbdd', 'bbccdd', 'aabbdd',
              'aabb', 'aadd', 'bbdd', 'aa', 'bb',
              'aabaaabaabaabaaaaba', 'abaaabaaabaabaaaab']

下面看一下使用Levenshtein距离聚类的过程的前几部:

['aabbccdd', 'bbbbccdd'] aabbccdd
['aaddccbb', 'aaaaccbb'] aaddccbb
['aabbbbdd', 'aabbdd'] aabbbbdd
['bbccdd', 'bbdd'] bbccdd
['aabb', 'aa

最低0.47元/天解锁文章

psmlbj

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录