字符串相似度匹配算法python_算法字符串相似度得分/哈希

有趣的问题。我在这一领域的经验有限,但由于Levenshtein距离满足三角形不等式,我认为必须有一种方法来计算到原点的某种绝对距离,以便在不与整个数据库中的所有条目进行直接比较的情况下找到彼此邻近的字符串。

在第26页,他讨论了基于kd树和其他树的相似性度量,但得出结论:However, general metric spaces do not provide the geometry required by

those techniques. For a general metric space with no other

assumptions, it is necessary distance-based to use a distance-based

approach that indexes points solely on the basis of their distance

from each other. Burkhard and Keller [35] offered one of the first

such index structures, now known as a BK-tree for their initials, in

1973. In a BK-tree, the metric is assumed to have a few discrete return values, each internal node contains a vantage point, and the

subtrees correspond to the different values of the metric.

关于BK树如何工作的博客文章可以找到here。

在论文中,Skala继续描述这个问题的其他解决方案,包括VP-trees树和GH树。第六章分析了基于Levenshtein编辑距离的距离。他还提出了一些其他有趣的弦距离度量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值