python问题关键词匹配算法_算法 - python ahocorasick 从本地文件读取文本,进行关键字匹配,匹配失败...

问 题

使用Python+pyahocorasick,匹配关键字,关键字大概在10-20个汉字之间。

构建ahocorasick的文本,是从本地文件key_word的读入。格式如下:

母婴专区

面条,细面,粗面,手工面,蔬菜面,营养面,碎面,挂面,面仔

匹配结果为空。

代码如下:

import ahocorasick

A = ahocorasick.Automaton()

title = 'Hello Kitty3色蔬菜细面300克 婴儿幼儿营养面条宝宝辅食面条'

with open('key_word', 'r') as f:

for line in f.readlines():

line = line.strip()

line = str(line.split('

A.add_word(line, line)

A.make_automaton()

aa = A.iter(title)

for item in aa:

print(item) # 打印为空值

请有操作过这种问题的大大,帮忙看看,能提供示例代码,或者提供处理思路,谢谢!

解决方案

研究了两天,自己实现了这个功能

本地文件有太多重复关键字,匹配并不是100%,供参考

参考代码如下:

import ahocorasick

A = ahocorasick.Automaton()

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值