多模匹配及其实现相关资料

SYSU_BOND

已于 2022-05-10 12:10:33 修改

阅读量481

点赞数 1

分类专栏：编程技巧文章标签：算法数据结构多模匹配

于 2022-04-20 00:40:11 首次发布

本文链接：https://blog.csdn.net/SYSU_BOND/article/details/124287055

版权

编程技巧专栏收录该内容

6 篇文章 0 订阅

订阅专栏

百度博客分享的多模匹配算法资料

1. 方法：

基于双数组实现Tried树

优点：

能节省大量空间占用
查询基于数组索引，速度非常快
不用像AC自动机一样还需构建fail指针，构建速度相对AC自动机要快，且可以快速删除或添加单词，保留一定的灵活性

缺点：

因为没有像AC自动机等算法进行穿线改进，故而全匹配算法需要回溯，性能有所下降
建树比非双数组结构的Tried树要慢

代码实现

https://github.com/Bond-H/dictmatch

1. 实现方法

纯Python实现，基于一个dict维护前缀树，性能不比AC自动机的实现差，同时节省大量空间占用

2. 性能评测

数据集	单词数	查询文本
PKU	5.5W	1826448字
AS	14.1W	8368050字
Jieba	58.4W	4050566字

对比实现：
ahocorapy：纯Python实现的AC自动机
dmsearch：C++双数组实现的Tried树模型【上文百度博文中介绍的模型】
dictmatch：纯Python实现的基于单个dict的Tried树模型

词典装载性能(装载时间秒)

数据集	PKU	AS	jieba
单词数	5.5W	14.1W	58.4W
ahocorapy	3	20	354
dmsearch	0.13	0.56	2.67
dictmatch	0.05	0.14	0.60

词典查询性能(查询时间秒)

数据集	PKU	AS	jieba
ahocorapy	1.0	5.4	9.27
dmsearch	4.2	12.8	6.7
dictmatch	1.4	6.7	3.5

内存占用

数据集	PKU	AS	jieba
单词数	5.5W	14.1W	58.4W
ahocorapy	300M	800M	5G
dmsearch	1G	1G	2.5G
dictmatch	25M	100M	400M

SYSU_BOND

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录