简介
FuzzyWuzzy是github上一个高星项目,根据Edit Distance计算两个序列之间的距离。Edit Distance是指两个字符串之间,由一个转换为另一个所需的最少编辑次数。编辑操作包括替换、插入、删除,一般认为两个字符串的编辑距离越小,相似度越大。(注意,Edit Distance越小相似度越大,但是FuzzyWuzzy返回的是相似度的数值,所以返回值越大,字符串越相似。
安装
pip install fuzzywuzzy
或
git clone git://github.com/seatgeek/fuzzywuzzy.git fuzzywuzzy
cd fuzzywuzzy
python setup.py install
用法
-
声明
from fuzzywuzzy import fuzz
from fuzzywuzzy import process -
简单匹配
>>>fuzz.ratio("this is a test",