pyahocorasick使用

简介

pyahocorasick是个python模块,由两种数据结构实现:trie和Aho-Corasick自动机。

教程

简单使用方法

import ahocorasick

A = ahocorasick.Automaton()

for idx, key in enumerate('he her hers she'.split()):
    A.add_word(key, (idx, key))

get()方法来查找

>>> A.get('he')
(0, 'he')
>>> A.get('she')
(3, 'she')
>>> A.get('cat', 'not exists')
'not exists'
>>> A.get('dog')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError

A.make_automaton() 来转换 trie查找为Aho-Corasick search

test = ['abcdefg', 'abcdef', 'abcde','abcd','abc','ab','a','abdcef','cde']
def build_actree(wordlist):
        actree = ahocorasick.Automaton()
        for index, word in enumerate(wordlist):
            actree.add_word(word, (index, word))
        actree.make_automaton()
        return actree
        
actree_test = build_actree(test)
for i in actree_test.iter('abcdefg'):
    print (i)
    
>>>
(0, (6, 'a'))
(1, (5, 'ab'))
(2, (4, 'abc'))
(3, (3, 'abcd'))
(4, (2, 'abcde'))
(4, (8, 'cde'))
(5, (1, 'abcdef'))
(6, (0, 'abcdefg'))

从结果能看出,actree会查找除了 前缀和后缀的 按顺讯匹配到的字段,比如 abcdcde

Python项目中,遇到"Failed to build installable wheel for some pyproject.toml based projects (pyahocorasick)"错误通常是当你尝试安装使用`poetry`或者其他依赖于`pyproject.toml`文件管理的库(如`setuptools-wheel`规范)时,构建wheel包(预编译的库格式)失败。这个错误可能由以下几个原因引起: 1. **缺失依赖**:可能是某个依赖项的版本过旧,无法满足当前项目的构建需求。检查`pyproject.toml`中的依赖是否是最新的,并尝试更新。 2. **环境问题**:Python的开发环境可能缺少某些必要的工具,比如C编译器(对于一些需要编译的C扩展模块),你需要确保你的环境中已经正确配置了这些工具。 3. **源码问题**:pyahocorasick或其他库可能存在代码问题,导致构建过程中出现问题。你可以查看相关的GitHub issues或开发者论坛寻求帮助。 4. **网络问题**:如果依赖项是从远程仓库获取的,网络问题可能导致下载失败。可以尝试清理缓存或更换网络再试。 5. **系统限制**:有些操作系统的限制可能影响到编译过程,例如权限问题。 解决这个问题的一般步骤包括: - 检查并修复`pyproject.toml`文件中的依赖关系。 - 更新或重新安装必要的构建工具(如`pip`, `setuptools`, 和 `wheel`)。 - 确保所有必需的软件包已正确安装且版本兼容。 - 如果是源码安装,确保遵循正确的编译步骤和平台兼容性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值