描述
实现 strStr() 函数。
给定一个 haystack 字符串和一个 needle 字符串,在 haystack 字符串中找出 needle 字符串出现的第一个位置 (从0开始)。如果不存在,则返回 -1。
示例 1:
输入: haystack = “hello”, needle = “ll”
输出: 2
示例 2:
输入: haystack = “aaaaa”, needle = “bba”
输出: -1
说明:
当 needle 是空字符串时,我们应当返回什么值呢?这是一个在面试中很好的问题。
对于本题而言,当 needle 是空字符串时我们应当返回 0 。这与C语言的 strstr() 以及 Java的 indexOf() 定义相符。
分析
字符串匹配问题
首先想到的是暴力匹配,这里也是可以过的
另外注意空字符串的问题,leetcode经常出现空串的情况
暴力方法
在haystack的每一位都可能对应needle的第1位
如果haystack[i] == needle[j]则i++,j++
出现失配的情况,则j自然要从0开始匹配,i就从刚刚起始匹配的开头部分往后移动一位,这很符合直觉
ABCDA
ABD
比如上面这个例子,从i=0的位置匹配,匹配到C而符号串为D失配,那么下次就从i=1开始从头匹配好了,直到全部匹配为止
时间复杂度为O(h*n)两者的长度,用时最长时每次都从头匹配到尾但是没有匹配上
代码1
def strStr(self, haystack: str, needle: str) -> int:
hay_size = len(haystack)
need_size = len(needle)
if need_size==0:
return 0
if hay_size == 0:
return -1
for i in range(0,hay_size-need_size+1):
flag = True
for j in range(0,need_size):
if haystack[i+j] != needle[j]:
flag = False
break
if flag is True:
return i
return -1
KMP算法
这是为了解决上面暴力匹配时间复杂度提出的经典的字符串匹配算法
核心思想在于,上面的暴力匹配中,每次i都要回退,造成时间复杂度
但是其实匹配过程中是产生了其他信息我们没有利用的
比如
0123456789
ABCDABEABD
ABABD
当从i=5开始匹配,匹配到E失配时,我们不需要把i回退到6,因为这个过程中我们已经知道s[i=6]=B 是不等于下面字符串中j=0的字符的
我们可以保持i=6不变,但是将下面的字符串整个的向右移动两位,因为在此刻匹配D时,前面的字符全都是匹配的,也就是D前面的两个字母AB是匹配上的,我们只要从前面找,如果前缀正好也是AB的话,那就将前面的AB移动到i=5对应的位置开始匹配就好了
也就是在这种算法里,没有移动i,移动的是j
根据待匹配字符串自身的前缀后缀信息合理的移动,减少不必要的试错
主要包括求next数组和匹配两部分
具体可参考博客 https://blog.csdn.net/v_july_v/article/details/7041827 从头到尾彻底理解KMP
代码2
def getNext(self,needle):
nlen = len(needle)
k = -1
j = 0
self.Next = [-1 for _ in range(nlen)]
self.Next[0] = -1
while j<nlen-1:
if k == -1 or needle[j]==needle[k]:
j += 1
k += 1
self.Next[j] = k
else:
k = self.Next[k]
def strStr(self, haystack: str, needle: str) -> int:
h_len = len(haystack)
n_len = len(needle)
self.getNext(needle)
if n_len == 0:
return 0
if h_len == 0:
return -1
i = 0
j = 0
while i < h_len and j<n_len:
if j==-1 or haystack[i] == needle[j]:
i += 1
j += 1
else:
j = self.Next[j]
if j == n_len:
return i-j
else:
return -1