题目大意
给定一个字符串 s 和一个非空字符串 p,找到 s 中所有是 p 的字母异位词的子串,返回这些子串的起始索引。
字符串只包含小写英文字母,并且字符串 s 和 p 的长度都不超过 20100。
说明:
- 字母异位词指字母相同,但排列不同的字符串。
- 不考虑答案输出的顺序。
示例 1:
输入:
s: "cbaebabacd" p: "abc"
输出:
[0, 6]
解释:
起始索引等于 0 的子串是 "cba", 它是 "abc" 的字母异位词。
起始索引等于 6 的子串是 "bac", 它是 "abc" 的字母异位词。
示例 2:
输入:
s: "abab" p: "ab"
输出:
[0, 1, 2]
解释:
起始索引等于 0 的子串是 "ab", 它是 "ab" 的字母异位词。
起始索引等于 1 的子串是 "ba", 它是 "ab" 的字母异位词。
起始索引等于 2 的子串是 "ab", 它是 "ab" 的字母异位词。
解题思路
不同于KMP算法,这里不管词的顺序,只要词频相同就认为可以匹配。
我们创建一个26长度的数组nums(均为小写字母)用来记录p中每个单词出现的频率。另外设置一个变量count记录nums中0元素的个数。
采用滑动窗口思想,窗口大小为p.size()。
在s上不断滑动窗口,如果当前窗口中的单词使得count=26(nums数组全为0),表示s的当前窗口是p的字母异位词,记录窗口的起始位置。
在窗口滑动的时候,nums中加入窗口出去的元素,减去窗口中进入的元素。
class Solution {
public:
vector<int> findAnagrams(string s, string p) {
if (s.size() < p.size())
return {};
vector<int> res;
vector<int> fre(26, 0);
int zeroNum = 0;
// 记录p中的词频
for (int i = 0; i < p.size(); ++i)
++fre[p[i] - 'a'];
// 统计nums中的0的个数
for (int i = 0; i < 26; ++i)
if (fre[i] == 0)
++zeroNum;
// 先遍历s中前p.size()-1个元素
for (int i = 0; i < p.size() - 1; ++i){
--fre[s[i] - 'a'];
// 减完之后是0,表示多个一个0
if (fre[s[i] - 'a'] == 0)
zeroNum++;
// 减完之后是-1,表示之前是0,现在不是
else if (fre[s[i] - 'a'] == -1)
zeroNum--;
}
for (int i = p.size() - 1; i < s.size(); ++i){
//进入s中的一个元素,此时窗口大小是p.size(),可以判断是否是字母异位词了
--fre[s[i] - 'a'];
if (fre[s[i] - 'a'] == 0)
zeroNum++;
else if (fre[s[i] - 'a'] == -1)
zeroNum--;
// 窗口的头部
int j = i - p.size() + 1;
// 如果nums全为0,表示窗口中的词频和p的词频完全一致,记录窗口头部
if (zeroNum == 26)
res.push_back(j);
// 为了让窗口滑动过程中保持大小为p.size(),因此需要让当前窗口头部退出
++fre[s[j] - 'a'];
if (fre[s[j] - 'a'] == 0)
zeroNum++;
else if (fre[s[j] - 'a'] == 1)
zeroNum--;
}
return res;
}
};