LeetCode 28. Implement strStr()(字符串匹配问题)

题目描述:

    Implement strStr().
    Return the index of the first occurrence of needle in haystack, or -1 if needle is not part of haystack.

例子:

Input: haystack = "hello", needle = "ll"
Output: 2
Input: haystack = "aaaaa", needle = "bba"
Output: -1

分析:
    题意:给定两个字符串haystack和needle,查找needle在haystack中首次出现的首位置,并返回。
    思路:经典的字符串匹配问题,解决方法有暴力匹配算法KMP算法。我们这里分别展开说明一下。
    ① 暴力匹配算法:假设现在文本串haystack匹配到i位置,模式串needle匹配到j位置,如果当前字符匹配成功(即haystack[i] == needle[j]),则i++,j++,继续匹配下一个字符;如果匹配失败(即haystack[i] != needle[j]),令i = i - (j - 1),j = 0。相当于每次匹配失败时,i回溯,j被置为0。
    假设两个字符串的长度分别为n1、n2,则时间复杂度为O(n1 * n2)。

代码:

#include <bits/stdc++.h>

using namespace std;

// violent Match
// T(n) = O(n1 * n2)
class Solution {
public:
    int strStr(string haystack, string needle) {
		int n1 = haystack.length(), n2 = needle.length();
		// Exceptional Case: 
		if(n1 == 0 && n2 == 0){
			return 0;
		}
		else if(n1 == 0 && n2 != 0){
			return -1;
		}
		else if(n1 != 0 && n2 == 0){
			return 0;
		}
		if(n1 < n2){
			return -1;
		}
		int i = 0, j = 0;
		while(i < n1 && j < n2){
			if(haystack[i] == needle[j]){
				i++;
				j++;
			}
			else{
				i = i - j + 1;
				j = 0;
			}
		}
		if(j == n2){
			return i - j;
		}
		return -1;
	}
};
    ② KMP算法:这个算法由Donald Knuth、Vaughan Pratt和James H. Morris三人于1977年联合发表,故取这3人的姓氏命名此算法为Knuth-Morris-Pratt字符串查找算法,简称为 “KMP算法”。算法流程如下所示:
    假设现在文本串haystack匹配到i位置,模式串needle匹配到j位置。Ⅰ. 如果j = -1,或者当前字符匹配成功(即haystack[i] == needle[j]),都令i++,j++,继续匹配下一个字符;Ⅱ. 如果j != -1,且当前字符匹配失败(即haystack[i] != needle[j]),则令i不变,j = next[j]。相当于匹配失败时,模式串needle相对于文本串haystack向右移动了j - next[j]位。
    匹配失败时,KMP算法的想法是,设法利用这个已知信息,不要把"搜索位置"移回已经比较过的位置,继续把它向后移,这样就提高了效率。next数组是KMP算法的精髓所在,也是KMP算法和暴力匹配算法的本质区别!
    匹配失败时,模式串needle向右移动的位数为:失配字符所在位置 - 失配字符对应的next值(next数组求解在下文介绍),即移动的实际位数为:j - next[j],此值大于等于1。
    next 数组各值含义:代表当前字符之前的字符串中,有多大长度的相同前缀后缀。如果next[j] = k,代表j之前的字符串中有最大长度为k的相同前缀后缀。此也意味着在某个字符失配时,该字符对应的next值会告诉你下一步匹配中,模式串应该跳到哪个位置(跳到next[j]的位置)。Ⅰ. 如果next[j]等于0或-1,则跳到模式串的开头字符;Ⅱ. 若next [j] = k 且 k > 0,代表下次匹配跳到j 之前的某个字符,而不是跳到开头,且具体跳过了k 个字符。

    next数组求解过程:我们以模式串needle="ABCDABD"为例。

字符子串前缀后缀共有元素长度
"A"0
"AB"{"A"}{"B"}0
"ABC"{"A", "AB"}{"BC", "C"}0
"ABCD"{"A", "AB", "ABC"}{"BCD", "CD", "D"}0
"ABCDA"{"A", "AB", "ABC", "ABCD"}{"BCDA", "CDA", "DA", "A"}"A"1
"ABCDAB"{"A", "AB", "ABC", "ABCD", "ABCDA"}{"BCDAB", "CDAB", "DAB", "AB", "B"}"AB"2
"ABCDABD"{"A", "AB", "ABC", "ABCD", "ABCDA", "ABCDAB"}{"BCDABD", "CDABD", "DABD", "ABD", "BD", "D"}0




    模式串needle="ABCDABD"对应的next数组值为[0,0,0,0,1,2,0]。
    假设两个字符串的长度分别为n1、n2,则时间复杂度为O(n1 + n2)。

代码:

#include <bits/stdc++.h>

using namespace std;

// KMP Match
// T(n) = O(n1 + n2)
class Solution {
private: 
	int *next;
	void getNextVal(string needle, int n2){
		// create
		next = new int[n2];
		next[0] = -1;
		int j = 0, k = -1;
		while(j < n2 - 1){
			if(k == -1 || needle[j] == needle[k]){
				j++;
				k++;
				next[j] = k;
			}
			else{
				k = next[k];
			}
		}
	}

public:
    int strStr(string haystack, string needle) {
		int n1 = haystack.length(), n2 = needle.length();
		// Exceptional Case: 
		if(n1 == 0 && n2 == 0){
			return 0;
		}
		else if(n1 == 0 && n2 != 0){
			return -1;
		}
		else if(n1 != 0 && n2 == 0){
			return 0;
		}
		if(n1 < n2){
			return -1;
		}
		// get next array
		getNextVal(needle, n2);
		// KMP
		int i = 0, j = 0;
		while(i < n1 && j < n2){
			if(j == -1 || haystack[i] == needle[j]){
				i++;
				j++;
			}
			else{
				j = next[j];
			}
		}
		if(j == n2){
			return i - j;
		}
		return -1;
	}
};
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值