pyahocorasick使用

简介

pyahocorasick是个python模块,由两种数据结构实现:trie和Aho-Corasick自动机。

教程

简单使用方法

import ahocorasick

A = ahocorasick.Automaton()

for idx, key in enumerate('he her hers she'.split()):
    A.add_word(key, (idx, key))

get()方法来查找

>>> A.get('he')
(0, 'he')
>>> A.get('she')
(3, 'she')
>>> A.get('cat', 'not exists')
'not exists'
>>> A.get('dog')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError

A.make_automaton() 来转换 trie查找为Aho-Corasick search

test = ['abcdefg', 'abcdef', 'abcde','abcd','abc','ab','a','abdcef','cde']
def build_actree(wordlist):
        actree = ahocorasick.Automaton()
        for index, word in enumerate(wordlist):
            actree.add_word(word, (index, word))
        actree.make_automaton()
        return actree
        
actree_test = build_actree(test)
for i in actree_test.iter('abcdefg'):
    print (i)
    
>>>
(0, (6, 'a'))
(1, (5, 'ab'))
(2, (4, 'abc'))
(3, (3, 'abcd'))
(4, (2, 'abcde'))
(4, (8, 'cde'))
(5, (1, 'abcdef'))
(6, (0, 'abcdefg'))

从结果能看出,actree会查找除了 前缀和后缀的 按顺讯匹配到的字段,比如 abcdcde

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值