暴力子字符串查找算法
在文本模式中可能出现匹配的任何地方检查匹配是否存在,即逐个比较
public static int search(String pat, String txt){
int m = pat.length();
int n = txt.length();
for(int i=0; i<=n-m; i++){
int j;
for(j=0; j<m; j++)
if(txt.charAt(i)!=pat.charAt(j)) break;
if(j==m) return i; //找到匹配
}
return n; //未找到匹配
}
另一种实现(显示回退)
如果i和j指向的字符不匹配了,那么需要回退两个指针的值:将j重新只想模式的开头,将i指向本次匹配的开始位置的下一个字符
public static int search1(String pat, String txt){
int j, m = pat.length();
int i, n = txt.length();
for(i=0,j=0; i<n&&i<m; i++){
if(txt.charAt(i)==pat.charAt(j)) j++;
else {i -= j; j = 0;}
}
if(j==m) return i-m; //找到匹配
else return n; //未找到匹配
}
KMP子字符串查找算法
提前判断如何重新开始查找,而这种判断只取决于模式本身
匹配失败时,不会回退文本指针i,而是使用一个数组来记录模式指针j应该回退多远
难点在于数组的构建
int[][] dfa = new int[R][m]; //R字母表长度,m模式串长度
dfa[pat.charAt(0)][0] = 1;
for(int x=0,j=1; j<m; j++){
for(int c=0; c<R; c++)
dfa[c][j] = dfa[c][x]; //复制匹配失败情况下的值
dfa[pat.charAt(j)][j] = j+1; //设置匹配成功情况下的值
x = dfa[pat.charAt(j)][x]; //更新重启状态
}
Boyer-Moore字符串查找算法
与KMP类似,从右向左与模式进行匹配,并在匹配失败时通过跳跃将文本中的字符和它在模式字符串中出现的最右位置对齐
for(int c=0; c<R; c++) //不包含在模式字符串中的字符的值为-1
right[c] = -1;
for(int j=0; j<M; J++) //包含在模式字符串中的字符的值为
right[pat.charAt(j)] = j; //它在其中出现的最右位置
if(pat.charAt(j)) != txt.charAt(i+j)){
skip = j - right[txt.charAt(i+j)]; //跳跃值
if(skip < 1) skip = 1;
}
Rabin-Karp指纹字符串查找算法
计算模式字符串的散列函数,然后用相同的散列函数计算文本中所有可能的M个字符的子字符串散列值并寻找匹配.(如除留余数法计算散列值)
为避免产生散列冲突,找到匹配字符串后,将两个子字符串进行适当变换,然后再比较