在实际开发工作中经常遇到,根据词表或映射表,查找或替换文本中内容,比较简单处理方法就是逐词匹配,这种处理方式不是高效的,而且代码写起来也会感觉很啰嗦,使用FlashText能够很好的帮助我们解决这个问题。
提取文本中字典涉及的关键词并将多个词归一化为某个关键词
from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> # keyword_processor.add_keyword(, )
>>> keyword_processor.add_keyword(‘Big Apple’, ‘New York’)
>>> keyword_processor.add_keyword(‘Bay Area’)
>>> keywords_found = keyword_processor.extract_keywords(‘I love Big Apple and Bay Area.’)
>>> keywords_found
>>> # [‘New York’, ‘Bay Area’]
替换词组
>>> keyword_processor.add_keyword(‘New Delhi’, ‘NCR region’)
>>> new_sentence = keyword_processor.replace_keywords(‘I love Big Apple and new delhi.’)
>>> new_sentence
>>> # ‘I love New York and NCR region.’
大小写敏感,通过case_sensitive设置
>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor(case_sensitive=True)
>>> keyword_processor.add_keyword(‘Big Apple’, ‘New York’)
>>> keyword_processor.add_keyword(‘Bay Area’)
>>> keywords_found = key