大规模数据清洗的利器
flashtext算法是一个高效的字符串搜索和替换算法,该算法的时间复杂度不依赖于搜索或替换的字符的数量,比一般的正则匹配法快很多,且flashtext算法被设计为只匹配完整的单词。比如在数据集{Machine,Learning,Machine Learning}中,一个文档“I like Machine Learning”,则flashtext算法只会优先去匹配“Machine Learning”,因为这是最长匹配。
flashtext安装
pip3 install flashtext
参考链接
官方文档:
https://flashtext.readthedocs.io/en/latest/
代码仓库:
https://github.com/vi3k6i5/flashtext