一、题目
DNA序列 由一系列核苷酸组成,缩写为 'A', 'C', 'G' 和 'T'.。
例如,"ACGAATTCCG" 是一个 DNA序列 。
在研究 DNA 时,识别 DNA 中的重复序列非常有用。
给定一个表示 DNA序列 的字符串 s ,返回所有在 DNA 分子中出现不止一次的 长度为 10 的序列(子字符串)。你可以按 任意顺序 返回答案。
示例 1:
输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出:["AAAAACCCCC","CCCCCAAAAA"]
示例 2:
输入:s = "AAAAAAAAAAAAA"
输出:["AAAAAAAAAA"]
来源:力扣(LeetCode)
链接:https://leetcode-cn.com/problems/repeated-dna-sequences
二、思路
用一个哈希表存储已经出现过的子序列,以子序列为key,出现次数为value,用一个大小为10 的str子串作为滑动窗口,逐步向后推移,如果当前子序列出现过,且仅出现过一次,就加入到结果数组中,如果没有出现过,就将当前子序列加入到哈希表中,并设置value值为1,直至遍历完输入的 DNA序列。
三、代码
class Solution {
public:
vector<string> findRepeatedDnaSequences(string s) {
vector<string> ans;
int len = s.size();
if(len < 10) return ans;
unordered_map<string, int> mp; //<子序列,出现次数>
string str = s.substr(0, 10);
mp.insert(make_pair(str, 1));
for(int i=10; i< len; i++){
str.erase(str.begin()); //删除子序列第一个字符
str += s[i]; //在子序列最后面加上当前字符
if(mp.find(str) != mp.end() && mp[str] == 1){
ans.push_back(str); //仅出现一次
mp[str]++;
}else{
mp.insert(make_pair(str,1)); //没出现过
}
}
return ans;
}
};
四、运行结果