pyahocorasick使用(ac自动机)

一、简介

pyahocorasick是一个快速高效的库,用于精确或近似的多模式字符串搜索,这意味着您可以在一些输入文本中同时找到多个关键字字符串。字符串“索引”可以提前构建,并保存(作为pickle)到磁盘,以便以后重新使用。该库提供了一个ahocarasick Python模块,您可以将其用作Trie之类的普通dict,或者将Trie转换为自动机,以实现高效的Aho-Carasick搜索。

二、安装
pip install pyahocorasick
三、使用
1.新建自动机

可以将Automaton类用作trie。将一些字符串键及其关联值添加到此trie。在这里,我们将一个元组(插入索引,原始字符串)作为一个值关联到我们添加到trie中的每个键字符串:

import ahocorasick
A = ahocorasick.Automaton()
for idx, key in enumerate('he her hers she'.split()):
    A.add_word(key, (idx, key))

然后可以检查某些字符串是否在trie当中

'he' in A
Out[5]: True
'HE' in A
Out[6]: False
A.get('he')
Out[7]: (0, 'he')
A.get('cat', 'not exists')
Out[8]: 'not exists'
A.get('dog')
Traceback (most recent call last):
  File "/Users/daxu/.conda/envs/py38/lib/python3.8/site-packages/IPython/core/interactiveshell.py", line 3441, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-9-6421fd467385>", line 1, in <module>
    A.get('dog')
KeyError
2.将trie转换为ac自动机,启动Aho Corasick搜索
A.make_automaton()
3. 在输入字符串中搜索所有出现的键

在这里,我们打印结果并检查它们是否正确。Automaton.iter()方法将找到的元素的结束索引,以及具体值作为元组,按照插入顺序返回。

test_str = 'hh he her hers she whos'
for end_index, (insert_order, original_value) in A.iter(test_str):
    start_index = end_index - len(original_value) + 1
    print((start_index, end_index, (insert_order, original_value)))
    assert test_str[start_index:start_index + len(original_value)] == original_value
    
(3, 4, (0, 'he'))
(6, 7, (0, 'he'))
(6, 8, (1, 'her'))
(10, 11, (0, 'he'))
(10, 12, (1, 'her'))
(10, 13, (2, 'hers'))
(15, 17, (3, 'she'))
(16, 17, (0, 'he'))

参考:https://pyahocorasick.readthedocs.io/en/latest/
暂时完结。。。

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python AC自动机是一个用于字符串匹配的算法,它可以高效地在一段文本中查找多个预定义的模式。它的实现可以使用多种库,其中包括ac自动机python和ahocorasick-pythonac自动机python是一个对标准的ac自动机算法进行了完善和优化的实现,适用于主流的Python发行版,包括Python2和Python3。它提供了更准确的结果,并且可以通过pip进行安装,具体的安装方法可以参考官方文档或者使用pip install命令进行安装。 ahocorasick-python是另一个实现AC自动机的库,它也可以用于Python2和Python3。你可以通过官方网站或者GitHub源码获取更多关于该库的信息和安装指南。 对于AC自动机使用,一个常见的例子是在一段包含m个字符的文章中查找n个单词出现的次数。要了解AC自动机,需要有关于模式树(字典树)Trie和KMP模式匹配算法的基础知识。AC自动机的算法包括三个步骤:构造一棵Trie树,构造失败指针和模式匹配过程。在构造好AC自动机后,可以使用它来快速地在文本中查找预定义的模式,并统计它们的出现次数。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [ahocorasick-python:AC自动机python的实现,并进行了优化。 主要修复了 查询不准确的问题](https://download.csdn.net/download/weixin_42122986/18825869)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Python实现多模匹配——AC自动机](https://blog.csdn.net/zichen_ziqi/article/details/104246446)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值