文本相似度计算方法汇总:文本相似度计算方法详解
1 基本思路
汉明距离
定义:在信息论中,两个等长字符串之间的汉明距离(英语:Hamming distance)是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。1
示例:
- 1011101与1001001之间的汉明距离是2。
- 2143896与2233796之间的汉明距离是3。
- "toned"与"roses"之间的汉明距离是3。
2 算法实现
2.1 Python 实现
- 方法一:
def hamming_distance(chaine1, chaine2):