导读
字符串模式匹配是常见的算法之一,在实际生活中有较高的使用频率。本文详细介绍两种最常见的字符串模式匹配算法:朴素模式匹配
KMP模式匹配
字符串模式匹配,也称子串的定位操作,通俗的说就是在一个主串中判断是否存在给定的子串(又称模式串),若存在,则返回匹配成功的索引。如:
主串:zhuanlanzhihu
子串:zhihu
主串中包含子串"zhihu",说明匹配成功,且返回的索引为:8
注:本文所有出现的字符串的下标都是从0开始标记,并用Java语言实现算法。
朴素模式匹配
串的朴素模式匹配算法也称为BF(Brute-Force)算法,其基本思想是:从主串的第一个字符起与子串的第一个字符进行比较,若相等,则继续逐对字符进行后续的比较;若不相等,则从主串第二个字符起与子串的第一个字符重新比较,以此类推,直到子串中每个字符依次和主串中的一个连续的字符序列相等为止,此时称为匹配成功。如果不能在主串中找到与子串相同的字符序列,则匹配失败。BF算法是最原始、最暴力的求解过程,但也是其他匹配算法的基础。下面通过具体Demo演示该算法的基本思想。
主串:zhihzhiuzhihu
子串:zhihiu
注:绿颜色代表匹配成功的字符,红颜色代表匹配失败的字符
首先,将主串的第一个字符与子串的第一个字符进行比较,即主串中的第一个字符'z'与子串的第一个字符'z'进行比较,二者相等,依次继续比较,主串第一个字符后面的'h'、 'i' 、'h'分别与子串第一个字符后面的'h' 、'i'、 'h'进行比较,都分别对应相等,继续比较主串的'z'与子串的'u',因为'z'与'u'不相等,则趟匹配失败。
这时,将主串的指针回溯到第一次比较开始字符的下一个字符即'h',子串从第一个字符'z'与'h'比较,'z'与'h'不相等,进行下一趟比较。
同理依次比较,主串的'i'与'z'不相等,本趟匹配失败。继续从主串的下一个字符'h'与子串的第一个字符'z'进行比较,'h'与'z'不相等,本趟匹配失败。
同理,继续从主串的下一个字符'z'与子串的'z'比较,相等,继续逐次对应比较,'h'与'h'相等,'i'与'i'相等,但后面的对应的'u'与'h'不相等,匹配再次失败。
主串需要回溯到'z'的下一个字符'h'处,子串从头来继续匹配,即'h'与'z'不相等;主串的下一个字符继续与子串第一个字符比较,即'i'与'z'比较不相等;主串的下一个字符继续与子串第一个字符比较,即'u'与'z'不相等。
最后,主串的下一个字符'z'与子串的第一个字符'z'比较相等,继续逐次比较,这时发现对应相同位置的字符都相等,至此,在主串中成功匹配子串,并且位置为:8
根据算法的基本思想,编写完整的BF代码,为了方便起见,测试使用main()方法。
import java.util.Scanner;
public class BF {
public static v