DoubleArrayTrie和AhoCorasickDoubleArrayTrie的实用性对比

DoubleArrayTrie和AhoCorasickDoubleArrayTrie的实用性对比
前段时间开源了基于双数组Trie树的Aho Corasick自动机,当时认为在中文分词中,ACDAT应该能秒杀DAT。今天优化了DAT的多模式匹配后,竟然得出了意外的结果。当初的DAT实现中,为了支持多模式匹配,我写了一个Searcher结构,里面储存了当前扫描的起点,并且用一个链表储存了从当前起点开始途经的所有词串。接着只要不断地将起点往后挪一个,就支持了多模式匹配。也就是这个“挪一个单位”的动作,让我认为DAT在多模式匹配上,复杂度更高(应该是O(n2),n是母文本的长度)。要知道,理论上AC自动机是线...

继续阅读码农场 » DoubleArrayTrie和AhoCorasickDoubleArrayTrie的实用性对比

原文链接http://www.hankcs.com/program/algorithm/double-array-trie-vs-aho-corasick-double-array-trie.html

转载于:https://my.oschina.net/hankcs/blog/408634

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值