flashtext 关键字提取
flashtext是一个Python库,用于高效地从文本中提取关键字。它提供了一种快速、灵活的方式来搜索和替换文本中的关键词。
要使用flashtext库,首先需要安装它。可以通过以下命令来安装:
pip install flashtext
示例代码
def wordsCheck(text, words):
# 创建一个 KeywordProcessor 对象
keyword_processor = KeywordProcessor()
keyword_processor.add_keywords_from_list(words)
res = keyword_processor.extract_keywords(text, span_info=True) # 位置信息
return [{'word': i[0], 'position': (i[1], i[2])} for i in res]
if __name__ == '__main__':
text = '这是一个绝无仅有的主意,彻底解决 xxx 问题,保证xxx 绝对'
words = ['问鼎', '绝无仅有', '业界公认', '彻底解决', '绝对', '之王']
print(wordsCheck(text, words))
# 返回数据
# [{'word': '绝无仅有', 'position': (4, 8)}, {'word': '彻底解决', 'position': (12, 16)}, {'word': '绝对', 'position': (30, 32)}]
使用flashtext库来查找和替换文本中的关键词:
from flashtext import KeywordProcessor
# 创建一个KeywordProcessor实例
keyword_processor = KeywordProcessor()
# 添加关键词到关键词处理器
keyword_processor.add_keyword('Python', 'Java')
keyword_processor.add_keyword('C++', 'JavaScript')
# 定义一个包含关键词的文本
text = "I love Python and C++ programming."
# 使用replace_keywords方法替换文本中的关键词
new_text = keyword_processor.replace_keywords(text)
print(new_text)