字符串匹配算法初探

本文探讨了字符串匹配问题,包括基本概念、朴素匹配算法及其优化,以及Rabin-Karp算法。朴素算法的时间复杂度在最坏情况下为O(n²),而Rabin-Karp算法引入了哈希函数,预处理时间为O(m),匹配时间是O((n-m+1)m)。文章还讨论了如何处理模式串中存在间隔字符的情况。
摘要由CSDN通过智能技术生成

    近日刷题,遇到诸多关于字符串匹配的问题。再次打开CLRS,学习字符串匹配该章,又有感受良多。

    要弄清字符串匹配的过程,需先明确以下几个定义:

        1.匹配串(文本):待匹配的字符串,是一个长度为n的字符数组T[1..n]

        2.模式串:匹配的基准串,是一个长度为m的字符数组P[1..m],其中m≤n

        3.有效位移:若存在位移s∈[0,n-m],且T[s+1..s+m]=P[1..m],那么就说明模式P在文本T中出现且位移为s,此时称s为一个有效位移,否则称s为一个无效位移

        许多字符串匹配算法的基本流程主要分为两大部分:预处理和匹配。而区分匹配效率的关键在于不同算法的匹配策略。

       

        特此说明:下述讲解中存在文本和模式的数组下标,一概从1开始;代码中实现仍是从0开始。

       

        首先看朴素字符串匹配算法,也称为暴力匹配算法(BF)。

        核心在于滑动窗口的移动速率只有一位,只要模式与文本在某字符位置k不匹配,下一次匹配就要从文本的k+1位置开始,而模式串则要从头匹配。这样很明显是耗费大量时间的。比如下图中文本为acaabc,模式为aab,s为匹配的指针位置: 

       当s=1时,文本T[2]=c,而模式P[2]=a不匹配, 此时下一次匹配的滑动窗口向后移动一位,从T[3]=a开始,而对应的模式P应从头开始匹配。该匹配算法虽然没有预处理过程,但是匹配时间为O((n-m+1)m),倘若m=n/2,那么时间复杂度将变为O(n²)。

伪代码为:

NAIVE-STRING-MATCHER(T,P)

1       n  ← length[T]

2       m ← length[P]

3       for  s ← 0 to n-m

4              do  if  P[1..m]=T[s+1..s+m]

5                         then print "Pattern occurs with shift" s

C++代码实现如下:

//只匹配第一次出现的字符串 
int Naive_String_Matcher(string T,string P){//T为匹配串,P为模式串 
	int n=T.size();
	int m=P.size();
	for(int s=0;s<n-m+1;s++){
		for(int k=0;
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值