2、串的模式匹配算法
串的查找操作也称作串的模式匹配操作,模式匹配操作的具体含义是:在主串(也称作目标串)中,从位置start开始查找是否存在子串(也称作模式串),如在主串中查找到一个与模式串相同的子串,则称查找成功;如在主串中为查找到一个与模式串相同的子串,则称查找失败。当模式匹配成功时函数返回模式串的第一个字符在主串中的位置,当模式匹配失败时返回-1。
2、1 Brute-Force算法
Brute-Force算法实现模式匹配的思想是:设主串为s="
s
0
s
1
…s
n-1
",模式串为t="
t
0
t
1
…t
n-1
"。
(1)从主串s的第一个字符开始和模式串t的第一个字符比较,若相等则继续比较后续字符。
(2)若主串s的第一个字符和模式串t的第一个字符比较不相等,则从主串s的第二个字符开始重新与模式串t的第一个字符串比较,若相等则继续比较后续字符。
(3)如此不断继续。若存在模式串t中的每个字符依次和主串s中的一个连续字符序列相等,则模式匹配成功,函数返回模式串t的第一个字符在主串s中的下标;若比较完主串s的所有字符序列,不存在一个和模式串t相等的子串,则模式匹配失败,函数返回-1。
public class BruceForce {
public static int bruceForce(String str , String subStr) {
int result = 0;
int len = str.length();
int lenSub = subStr.length();
if (lenSub > len) {
result = -1;
}
int i = 0 , j = 0;
while (i < len && j < lenSub) {
if (str.charAt(i) == subStr.charAt(j)) {
i ++;
j ++;
}
else {
i = i - j + 1;
j = 0;
}
}
if (j == lenSub) {
result = i - lenSub + 1;
}
return result;
}
public static void main(String[] args) {
String str = "cddcdc";
String subStr = "cdc";
int result = bruceForce(str, subStr);
if (result > 0) {
System.out.println("pos = " + result);
}
else if (result == 0) {
System.out.println("未找到!");
}
else if (result == -1) {
System.out.println("子串比主串长");
}
}
}
输出结果为:
pos = 4
这个算法简单并易于理解,但是有些情况下时间效率并不高。主要原因是:在主串和子串已有相当多个字符比较相等的情况下,只要有一个字符比较不相等,便需要把主串的比较位置(即函数中变量i的值)回退。设主串的长度为n,子串的长度为m,则Brute-Force算法在最好情况下的时间复杂度为O(m),在最坏的情况下的时间复杂度为O(n*m)。
2、2 KMP算法
1、Bruce-Force算法的缺点以及解决方法分析
KMP算法是Brute-Force算法基础上的改进算法。KMP算法的特点主要是,消除了Brute-Force算法的主串比较位置在相当多字符比较相等后,只要有一个字符比较不相等,主串位置便需要回退的特点。
分析Brute-Force算法的匹配过程可以发现,算法中的主串比较位置的回退并非一定比较。这可分为以下两种情况。
(1)第一种情况如上节的图中所示。主串s="cddcdc"、模式串t="cdc"的模式匹配过程为:当s0= t0,s1= t1,s1≠t1时,算法中下一次的比较位置为i=1,j=0,接下来比较s1和t0。但是因为t0≠t1,而s1=t1&