Smith Water算法 实现字符串相似度匹配

本文介绍了Smith Waterman字符串相似度度量算法,该算法常用于基因序列匹配,也能解决数据清洗中的去重问题,特别是处理漏写和简写。文中详细阐述了算法的基本思想、伪代码及Python实现,包括得分矩阵的初始化、回溯过程,以及实际测试代码。
摘要由CSDN通过智能技术生成

Smith Waterman 字符串相似度度量算法

smith waterman 算法最初用于基因序列匹配中,用于检测基因序列之间的相似性




序:最近在做数据清洗,需要用到去重处理。想到Smith Waterman可以用于序列对的匹配,并且能处理漏写,简写的问题,所以将问题进行整理,以供参考。


相关定义

设要比对的两序列为 s t r 1 str_1 str1 s t r 2 str_2 str2
确定置换矩阵和空位罚分方法

  • S(str[i], str[j]) 表示组成序列的元素之间的相似性得分
  • W k W_k Wk 表示长度为k的空位罚分
  • H 是得分矩阵, H i j H_{ij} H
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值