一种中文字符串相似度算法

最新推荐文章于 2022-06-24 21:51:02 发布

欢&欢

最新推荐文章于 2022-06-24 21:51:02 发布

阅读量2.2k

点赞数

文章标签：搜索引擎全文检索自然语言处理语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16374771/article/details/122261992

版权

一种中文字符串相似度算法

概要
- 标记距离相似算法
- 扩展

概要

给定一个字符串a，在字符串列表B中找到与a最相似字符串b，或者让列表B按与a相似度排序。本文提出一种算法来较好的解决这个问题。并且该算法很容易扩展支持拼音模糊相似度计算，在语音识别应用如语音搜索联系人打电话方面有较好的优势。

标记距离相似算法

在这里插入图片描述

如图，我们需要计算a和b的相似度，需要执行三个步骤：
1、将a和b的相同字符一一进行标记，这里用相同颜色表示。
2、计算a每一个字符的相似得分。
3、将a的每一个字符最大得分相加就得到这两行字符串的总相似度分数。

第一步和第三步显然很简单，我们来讨论第二步，如何计算每个字符的相似得分：
我们这样定义相同字符的距离：
a和b中两个相同颜色字符的索引减去他们前面的相同颜色字符的索引之间的差就是这两个字符的距离。如上图，从左到右，设a_n和b_m的颜色相同，a_x和b_y的颜色相同，且a_n、b_m是a_x、b_y左边第一个满足Index_{a_n} < Index_{a_x} && Index_{b_m} < Index_{b_y}，那么a_x、b_y的相似距离就是：
$d = |(Index_{a_n} - Index_{a_n}) - (Index_{b_y} - Index_{b_m})|$

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
一种中文字符串相似度算法

给定一个字符串a，在字符串列表B中找到与a最相似字符串b，或者让列表B按与a相似度排序。本文提出一种算法来较好的解决这个问题。并且该算法很容易扩展支持拼音模糊相似度计算，在语音识别应用如语音搜索联系人打电话方面有较好的优势。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。