Smith Waterman 字符串相似度度量算法
smith waterman 算法最初用于基因序列匹配中,用于检测基因序列之间的相似性
序:最近在做数据清洗,需要用到去重处理。想到Smith Waterman可以用于序列对的匹配,并且能处理漏写,简写的问题,所以将问题进行整理,以供参考。
相关定义
设要比对的两序列为 s t r 1 str_1 str1 和 s t r 2 str_2 str2。
确定置换矩阵和空位罚分方法
- S(str[i], str[j]) 表示组成序列的元素之间的相似性得分
- W k W_k Wk 表示长度为k的空位罚分
- H 是得分矩阵, H i j H_{ij} H