KMP(Knuth-Morris-Pratt)算法是一种用于字符串匹配的著名算法,其核心思想是利用已经匹配的信息来避免做无用的比较,从而提高匹配效率。下面,我将通过C++代码来详细介绍KMP算法的实现过程。
首先,我们需要了解KMP算法的几个关键概念:
-
前缀函数(Prefix Function):对于一个给定的字符串
s
,前缀函数π[i]
定义为s
的前缀(即s[0..i]
)中最长相等的前缀后缀的长度。例如,如果s
是"ababaca",那么π
数组将是[0, 0, 1, 2, 3, 0, 1]
。 -
Border(Border):在KMP算法中,Border是指已经匹配的子串的最长前缀,也是后缀。例如,在字符串"ababa"中,border是"ab"。
现在,我们开始看代码:
#include <iostream>
#include <string>
#include <vector>
// 计算前缀函数
std::vector<int> computePrefixFunction(const std::string& pattern) {
int m = pattern.size();
std::vector<int> pi(m);
pi = 0; // 第一个字符的前缀函数值为0
int k = 0; // Border的长度
for (int q = 1; q < m; q++) {
// 找到Border的最大长度k,使得pattern[k]与pattern[q]匹配
while (k > 0 && pattern[k] != pattern[q]) {
k = pi[k - 1];
}
// 如果找到匹配,增加Border的长度
if (pattern[k] == pattern[q]) {
k++;
}
pi[q] = k;
}
return pi;
}
// KMP算法的主函数
void kmpSearch(const std::string& text, const std::string& pattern) {
int n = text.size();
int m = pattern.size();
std::vector<int> pi = computePrefixFunction(pattern);
int q = 0; // 已经匹配的字符数
for (int i = 0; i < n; i++) {
// 找到不匹配的地方
while (q > 0 && pattern[q] != text[i]) {
q = pi[q - 1];
}
// 如果找到匹配,增加已经匹配的字符数
if (pattern[q] == text[i]) {
q++;
}
// 如果全部匹配,打印出结果
if (q == m) {
std::cout << "Pattern found at index " << i - m + 1 << std::endl;
q = pi[q - 1]; // 继续搜索下一个匹配项
}
}
}
int main() {
std::string text = "ABC ABCDAB ABCDABCDABDE";
std::string pattern = "ABCDABD";
kmpSearch(text, pattern);
return 0;
}
在这段代码中,我们首先定义了一个
函数来计算模式字符串的前缀函数。然后,在
函数中,我们使用这个前缀函数来在文本字符串中查找模式字符串。
这个算法的关键之处在于,当匹配失败时,我们不需要回溯文本指针i
,而是利用已经计算好的前缀函数值π
直接跳到下一个可能的匹配位置,这样就避免了重复匹配已经确定不匹配的字符。
希望这有助于你理解KMP算法的C++实现。如果你有任何问题,或需要进一步的解释,请随时告诉我!