字符串匹配算法之暴力做法(朴素算法)
1.字符串匹配算法
首先我们需要了解,什么是字符串匹配算法?
1.1 简介
又称模式匹配(pattern matching)。该问题可以概括为「给定字符串S
和T
,在主串S
中寻找子串T
」。字符T
称为模式串 (pattern)。
1.2 类型
-
单串匹配:给定一个模式串和一个待匹配串,找出前者在后者中的所有位置。
-
多串匹配:给定多个模式串和一个待匹配串,找出这些模式串在后者中的所有位置。
- 出现多个待匹配串时,将它们直接连起来便可作为一个待匹配串处理。
- 可以直接当做单串匹配,但是效率不够高。
-
其他类型:例如匹配一个串的任意后缀,匹配多个串的任意后缀……
1.3 示例题目
以下题目来自leetcode 28. 实现 strStr()。这就是最经典的字符串单模匹配题。
实现 strStr() 函数。
给你两个字符串 haystack 和 needle ,请你在 haystack 字符串中找出 needle 字符串出现的第一个位置(下标从 0 开始)。如果不存在,则返回 -1 。
示例 1:输入: haystack = "hello", needle = "ll" 输出: 2
2.暴力做法(朴素算法)
2.1 暴力算法的思路
暴力算法(Brute Force Algorithm)又叫朴素字符串匹配算法(Naive String Matching Algorithm)。
该算法的基本思路就是将字符一个一个地进行比较:
- 如果
S
和T
两个字符串的第一个字符相同就比较第二个字符,如果相同就一直继续; - 如果其中有某一个字符不同,则将
T
字符串向后移一位,将S
字符串的第二个字符与T
的字符串的第一个字符重新开始比较。 - 循环往复,一直到结束。
伪代码如下:
NAIVE-STRING-MATCHER(T, P)
2 n ← length[T]
3 m ← length[P]
4 for s ← 0 to n - m
5 do if P[1 .. m] = T[s + 1 .. s + m]
6 then print "Pattern occurs with shift" s
2.2 暴力算法的特点:
我们通过伪代码的学习,可以发现暴力算法称不上高效,而这些特点就是原因。
- 没有预处理阶段;
- 滑动窗口总是后移 1 位;
- 对模式中的字符的比较顺序不限定,可以从前到后,也可以从后到前;
- 匹配阶段需要 O((n - m + 1)m) 的时间复杂度;
- 需要 2n 次的字符比较;
2.3 暴力算法的Java实现
就用之前提到过的leetcode28题的代码来当作Java实现。字符串匹配还有KMP、Rabin-Karp算法以及boyer-moore算法等,到时候我也会更新在这个专栏里。
class Solution {
public int strStr(String haystack, String needle) {
int m = haystack.length(),n = needle.length();
for(int i = 0;i<=m-n;i++){
boolean flag = true;
for(int j =0;j<n;j++){
if(haystack.charAt(i+j) != needle.charAt(j)){
flag = false;
break;
}
}
if(flag){
return i;
}
}
return -1;
}
}