1、定义
**串(string)**是由零个或多个字符组成的有限序列,又名叫字符串。
零个字符的串称为空串。
计算机中常用字符是使用ASCII编码,更准确一点,由7位二进制数表示一个字符,总共可以表示128个字符。后来发现一些特殊符号的出现,128个不够用,于是扩展ASCII码由8位二进制数表示一个字符,总共可以表示256个字符,这已经足以满足以英语为主的语言和特殊符合进行输入、存储、输出等操作的字符需要了, 可是,单我们国家就有除汉语以外的其他少数名族文字,换做全世界估计要有成百上千种语言与文字,显然256个字符是不够的,因此有了Unicode编码,比较常用的是由16位的二进制数表示一个字符,这样总共就有2的16次方个字符,约6.5万多个字符,足够表示世界上所有语言的所有字符了 。当然为了和ASCII码兼容,Unicode的前256个字符与ASCII码完全相同。
2、朴素模式匹配算法
字串的定位操作通常称做串的模式匹配,朴素模式是最原始的写法,存在很多重复的次数,时间复杂度最坏情况O((n-m+1)*m)。所以才会介绍后面的KMP算法,基于此算法的优化,时间复杂度变为O(n+m)。
java语言版本:
public class TestString {
public static void main(String[] args) {
int index = getIndex("goodgoogle", "google", 0);
System.out.println("index:" + index);
}
private static int getIndex(String s, String t, int pos) {
int i = pos;
int j = 0;
int sLength = s.length();
int tLength = t.length();
char[] sArray = s.toCharArray();
char[] tArray = t.toCharArray();
while (i <= sLength - 1 && j <= tLength - 1) {//java中字符串中字符的下标是从0开始的
if (sArray[i] == tArray[j]) {
i++;
j++;
} else {
i = i - j + 1;
j = 0;//没有匹配到字符后,我们需要将当前t已经比较的部分游标j置为1,方便下一次开始从t的第一位开始进行比较。
}
}
if (i >= tLength) {
return i - (tLength);
//这句话很有意思,因为i是累加的,所以当全部匹配到google的时候,goodgoogle,i的值已经变成了10,因为我们匹配到了最后一位,
// 所以这时候我们找到匹配成功的初始位置,就是11-6=5 ;我们在第5位置匹配到了google。
}
return -1;//没有匹配成功
}
}
i = i - j + 1****这是一个简单且关键的计算:
用当前的i比较后的位置减去j的长度+1就等于当前s的下一个要开始比较的位置,就好比,我们goodgoogle 和 google 比较到good 时发现d不同,但是我们已经比较了goo ,i已经变成了3,j也已经变成了3,这时候i-j=0相当于回到了与s比较的初始位置0,然后我们让i+1,(则i=1)设置下一次要比较的s的起始位置,因为没有匹配成功,所以我们也要将j的位置从3设置为0,设置下一次要比较的t的起始位置;
然后继续往下,即oodgoole和google比较,发现s的第一个字符o与t的第一个字符g不同,这时候我们上一次操作后的i=1,j=0,那么i-j+1=2;
继续往下, 即odgoole和google比较,以此类推。
3、KMP模式匹配算法
一个模式匹配算法可以大大避免重复遍历的情况,我们把它称之为克努特-莫里斯-普拉特算法,简称KMP算法。
算法比较费脑。
关于getNext的推导的一张草图,但是一定要结合书本看《大话数据结构》。
public class TestString {
public static void main(String[] args) {
int index = getIndex("goodgoogle", "google", 0);
System.out.println("index:" + index);
int index2 = kmp("goodgoogle", "google");
System.out.println("index2:" + index2);
}
private static int getIndex(String s, String t, int pos) {
int i = pos;
int j = 0;
int sLength = s.length();
int tLength = t.length();
char[] sArray = s.toCharArray();
char[] tArray = t.toCharArray();
while (i <= sLength - 1 && j <= tLength - 1) {//java中字符串中字符的下标是从0开始的
if (sArray[i] == tArray[j]) {
i++;
j++;
} else {
i = i - j + 1;
j = 0;//没有匹配到字符后,我们需要将当前t已经比较的部分游标j置为1,方便下一次开始从t的第一位开始进行比较。
}
}
if (i >= tLength) {
return i - (tLength);
//这句话很有意思,因为i是累加的,所以当全部匹配到google的时候,goodgoogle,i的值已经变成了10,因为我们匹配到了最后一位,
// 所以这时候我们找到匹配成功的初始位置,就是11-6=5 ;我们在第5位置匹配到了google。
}
return -1;//没有匹配成功
}
public static int kmp(String s, String t) {
char[] sArray = s.toCharArray();
char[] tArray = t.toCharArray();
int[] next = getNext(t);
for (int i = 0; i < sArray.length; i++) {
int j = 0;
while (j < tArray.length) {
if (sArray[i] != tArray[j]) {
if (j == 0) {
break;
}
j = next[j];
} else {
i++;
j++;
}
}
if (j == tArray.length) {
return i - j;
}
}
return -1;
}
public static int[] getNext(String t) {
char[] chars = t.toCharArray();
int i = 0, j = -1;
int[] next = new int[t.length()];
next[0] = -1;
next[1] = 0;
while (i < t.length() - 1) {
if (j == -1 || chars[i] == chars[j]) {
next[++i] = ++j;
} else {
j = next[j];
}
}
return next;
}
3、KMP模式匹配算法改进
public static void main(String[] args) {
int index2 = kmp2("goodgoogle", "google");
System.out.println("index2:" + index2);
}
public static int kmp2(String s, String t) {
char[] sArray = s.toCharArray();
char[] tArray = t.toCharArray();
int[] next = getNextVal(t);
for (int i = 0; i < sArray.length; i++) {
int j = 0;
while (j < tArray.length) {
//这个地方需要判断是否为-1
if (i > -1 && j > -1 && sArray[i] != tArray[j]) {
if (j == 0) {
break;
}
j = next[j];
} else {
i++;
j++;
}
}
if (j == tArray.length) {
return i - j;
}
}
return -1;
}
public static int[] getNextVal(String t) {
char[] tArray = t.toCharArray();
int i = 0, j = -1;
int[] nextVal = new int[t.length()];
nextVal[0] = -1;
nextVal[1] = 0;
while (i < t.length() - 1) {
if (j == -1 || tArray[i] == tArray[j]) {
i++;
j++;
//相较于getNext()改动的地方
if (tArray[i] == tArray[j]) { // i == j, i+1 == j+1
nextVal[i] = nextVal[j];
} else {
nextVal[i] = j;
}
} else {
j = nextVal[j];
}
}
return nextVal;
}
输出结果
index:4
index2:4
回头再来补充代码解释:
码字不易,求个关注。
微信公众号: 一粒尘埃的漫旅
里面有很多想对大家说的话,就像和朋友聊聊天。
写代码,做设计,聊生活,聊工作,聊职场。
我见到的世界是什么样子的?
搜索关注我吧。