187. 重复的DNA序列
难度中等325
所有 DNA 都由一系列缩写为 ‘A’,‘C’,‘G’ 和 ‘T’ 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来找出所有目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。
示例 1:
输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"输出:["AAAAACCCCC","CCCCCAAAAA"]
示例 2:
输入:s = "AAAAAAAAAAAAA"输出:["AAAAAAAAAA"]
提示:
- 0 <= s.length <= 105
- s[i] 为 ‘A’、‘C’、‘G’ 或 ‘T’
思路
- 滑动窗口+哈希表判重( 时间复杂度o(NL),空间复杂度o(NL) )
代码
class Solution {
public:
const int L=10;
vector<string> findRepeatedDnaSequences(string s) {
vector<string> ans;
if(s.size()<=L)//不满 L长度,直接退出
return ans;
string str;
unordered_map<string,int> hash;
for(int i=0;i<=s.size()-L;i++)//窗口
{
if(hash[s.substr(i,L)]++==1)//判重&加入hash
ans.push_back( s.substr(i,L) );
}
return ans;
}
};