一、字符串匹配算法研究
1.1 Difflib 算法
difflib 算法原理:
通过字符串长度与匹配字符串的个数做比较
import difflib
Str = '上海中心大厦'
s1 = '大厦'
s2 = '上海中心'
s3 = '上海中心大楼'
#None 是isjunk的意思
print(difflib.SequenceMatcher(None, Str, s1).quick_ratio())
print(difflib.SequenceMatcher(None, Str, s2).quick_ratio())
print(difflib.SequenceMatcher(None, Str, s3).quick_ratio())
1.2 Transoform
可以使用Transform 相关的库,使用别人预训练的模型。
二、参考资料
https://blog.csdn.net/Disany/article/details/82768328
https://blog.csdn.net/minosisterry/article/details/117028761
https://baijiahao.baidu.com/s?id=1682978589161286164&wfr=spider&for=pc(isjunk的解释)
https://blog.csdn.net/u010454729/article/details/124231419(difflib 计算原理)