sunday算法特征码_单模式字符串匹配算法效率的研究

本文研究了Sunday算法在处理重复字符时的效率问题,并提出了一种改进方法,通过预处理压缩重复首字符,提升匹配速度。实验表明,改进算法能有效减少无意义的匹配次数,提高执行效率。
摘要由CSDN通过智能技术生成

单模式字符串匹配算法效率的研究

字符串匹配的应用范围非常广泛,包括文档编辑、入侵检测、病毒特征码查找、防火墙技术、基因序列匹配等多个领域。Sunday算法是当前应用广泛并且比较高效的单模式匹配算法。但是当模式串和文本串均存在大量的重复字符时,Sunday算法的匹配次数将随着首字符的重复次数快速增加,在这种情况下,算法的执行效率将大大低于KMP算法。为了扩大Sunday算法的适用范围,提高其平均执行效率。本文提出了一种基于Sunday算法的改进算法,在算法匹配工作开始前进行预处理,将重复的首字符压缩为一个字符,然后使用压缩后的字符串和正文进行匹配,如果匹配成功,返回成功匹配的位置信息,然后开始进行回溯,即对成功匹配的位置信息前的字符和首字符进行循环匹配,如果匹配位数和模式串相同,则返回成功,否则返回失败。可以减少大量无意义的匹配次数,提高算法的执行速度。最后,分析改进后算法的性能,并通过实验进一步证明了改进算法的有效性。由于直接对字符串匹配算法构造状态转化图进行

(本文共70页)

本文目录 |

阅读全文>>

对几种典型字符串匹配算法适用范围...

(本文共2页)

阅读全文>>

精确的字符串匹配算法对网络入侵检测系统的性能有重要的影响,为了提高其效率,这里设计了一个专门...

(本文共2页)

阅读全文>>

基于字符串匹配的检测方法是入侵检测系统中一类很重要的分析方法。文章首先分析了现有的几种准确字符串匹配算法,然后提出...

(本文共5页)

阅读全文>>

近似字符串匹配问题广泛的存在于文本检索、模式识别、信号处理以及生物信息学等诸多领域。编辑距离是最常用的度量字符串相似性的方法。为了解决近似字符串匹配问题,许多方法已经被提出。然而随着近些年网络数据、日志数据以及生物基因序列数据的快速增长,计算机系统的快速发展以及新问题的不断提出,现有的近似字符串匹配方法面临巨大的挑战。研究高效的近似字符串匹配方法具有重要的理论价值和实际意义。本文深入研究了近似字符串匹配的若干个具有代表性的问题,针对不同问题,提出了多种高效的索引方法和匹配方法。本文的贡献点可概括如下:(1)为了解决现有方法对查询串以及查询参数非常敏感的问题,提出了自适应的近似字符串匹配方法。该方法较其他方法相比执行效率可以提高1个数量级。首先,利用BWT索引以及均匀划分策略,开发了一个基本近似字符串匹配方法。其次,提出了最优划分策略的方法来选择高质量的候选集。该方法可以找到一个查询的最少候选串,从而有效的减少了验证的开销。进一步...

(本文共137页)

本文目录 |

阅读全文>>

字符串匹配是计算机科学中研究最经典的问题之一。早期主要是对字符串的精确匹配进行研究,而且大多数研究都是针对DNA片段等小型字符集,或针对英文等中等大小字符集,而对于汉字乃至亚洲语言等大型字符集的研究却不多。然而随着新问题的不断提出,人们发现在实际应用中有时更需要近似字符串匹配。并且字符串近似匹配已经被应用到众多领域之中,比如拼写检查、模式识别、Web搜索、OCR纠错、DNA序列匹配等。本文针对中文字符串的近似匹配算法进行研究,论文的主要成果如下:(1)提出了融合多元信息的编辑距离的计算方法。传统编辑距离算法中只是单纯考虑了增加、删除、替换一个字符的代价,并没有区分各字符的重要程度对字符串相似度的影响,也没有考虑汉字的字形信息。本文在传统编辑距离算法的基础上,融合了汉字的字频信息和字形信息。对于固定库中的字符串,字符出现的频率是一定的。本文将低频字符定义为重要字符,对于重要的字符降低其匹配代价,提高其匹配的概率。汉字字符与英文字符...

(本文共69页)

本文目录 |

阅读全文>>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值