知识图谱:【数据清洗工具flashtext(四)】——flashtext函数

  • 构建Trie字典:KeywordProcessor
  • 新增关键词:add_keyword
  • 关键词抽取:extract_keywords
  • 关键词替换:replace_keywords
  • 删除关键词:remove_keywords

示例:

from flashtext import KeywordProcessor

keyword_processor = KeywordProcessor(case_sensitive=False)
keyword_processor.add_keyword(one_kw,)
keywords_found = keyword_processor.extract_keywords(one_str,span_info=True)

extract_keywords返回的是匹配到的关键词,replace_keywords是直接返回一整个句子,相当于关键词定位+替换:
kw_list=['健康','美味']
keyword_processor=KeywordProcessor()
for kl in kw_list:
    keyword_processor.add_keyword(kl)
keyword_processor.add_keyword('健康','建康')
 // 查询
text="这个菜,真是健康又美味,很健康"
new_sentence=keyword_processor.replace_keywords(text)   # 替换式查询
print(new_sentence)
new_sentence=keyword_processor.extract_keywords(text)   # 关键词检索
print(new_sentence)
>>> 这个菜,真是建康又美味,很建康
>>> ['建康', '美味', '建康']

keyword_processor.remove_keyword('banana')
keyword_processor.remove_keywords_from_dict({"food": ["bread"]})
keyword_processor.remove_keywords_from_list(["basketball"])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值