自然语言处理学习篇02——Edit Distance

最新推荐文章于 2025-08-13 06:56:59 发布

原创

最新推荐文章于 2025-08-13 06:56:59 发布 · 1w 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#distance #自然语言处理 #string

本文详细探讨了自然语言处理中的Edit Distance概念，包括最小编辑距离的定义、计算方法、回溯计算对齐方式、加权最小编辑距离及其在计算生物学中的应用。

第二章 Edit Distance

本篇内容将讲述Edit Distance（编辑距离的定义详见正文），具体又包含5个方面的内容：

Defining Minimum Edit Distance
Computing Minimum Edit Distance
Backtrace for Computing Alignments
Weighted Minimum Edit Distance
Minimum Edit Distance in Computational Biololgy

1. Definition of Minimum Edit Distance

Edit Distance用于衡量两个strings之间的相似性。

两个strings之间的 Minimum edit distance是指把其中一个string通过编辑（包括插入，删除，替换操作）转换为另一个string的最小操作数。

如上图所示，d（deletion）代表删除操作，s（substitution）代表替换操作，i（insertion）代表插入操作。

（为了简单起见，后面的Edit Distance 简写为ED）

如果每种操作的cost（成本）为1，那么ED = 5.

如果s操作的cost为2（即所谓的Levenshtein Distance），ED = 8.

2

最低0.47元/天解锁文章

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。