近日刷题,遇到诸多关于字符串匹配的问题。再次打开CLRS,学习字符串匹配该章,又有感受良多。
要弄清字符串匹配的过程,需先明确以下几个定义:
1.匹配串(文本):待匹配的字符串,是一个长度为n的字符数组T[1..n]
2.模式串:匹配的基准串,是一个长度为m的字符数组P[1..m],其中m≤n
3.有效位移:若存在位移s∈[0,n-m],且T[s+1..s+m]=P[1..m],那么就说明模式P在文本T中出现且位移为s,此时称s为一个有效位移,否则称s为一个无效位移
许多字符串匹配算法的基本流程主要分为两大部分:预处理和匹配。而区分匹配效率的关键在于不同算法的匹配策略。
特此说明:下述讲解中存在文本和模式的数组下标,一概从1开始;代码中实现仍是从0开始。
首先看朴素字符串匹配算法,也称为暴力匹配算法(BF)。
核心在于滑动窗口的移动速率只有一位,只要模式与文本在某字符位置k不匹配,下一次匹配就要从文本的k+1位置开始,而模式串则要从头匹配。这样很明显是耗费大量时间的。比如下图中文本为acaabc,模式为aab,s为匹配的指针位置:
当s=1时,文本T[2]=c,而模式P[2]=a不匹配, 此时下一次匹配的滑动窗口向后移动一位,从T[3]=a开始,而对应的模式P应从头开始匹配。该匹配算法虽然没有预处理过程,但是匹配时间为O((n-m+1)m),倘若m=n/2,那么时间复杂度将变为O(n²)。
伪代码为:
NAIVE-STRING-MATCHER(T,P)
1 n ← length[T]
2 m ← length[P]
3 for s ← 0 to n-m
4 do if P[1..m]=T[s+1..s+m]
5 then print "Pattern occurs with shift" s
C++代码实现如下:
//只匹配第一次出现的字符串
int Naive_String_Matcher(string T,string P){//T为匹配串,P为模式串
int n=T.size();
int m=P.size();
for(int s=0;s<n-m+1;s++){
for(int k=0;