lc.187 重复的DNA序列
所有 DNA 都由一系列缩写为 ‘A’,‘C’,‘G’ 和 ‘T’ 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来找出所有目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。
- C++ hash
class Solution {
const int L=10;
public:
vector<string> findRepeatedDnaSequences(string s) {
vector<string> ans;
unordered_map<string, int> cnt;
int n=s.size();
for(int i=0;i<=n-L;i++)
{
string sub = s.substr(i,L);
if(++cnt[sub]==2)
{
ans.push_back(sub);
}
}
return ans;
}
};
注意到:···int n=s.size(); for(int i=0;i<=n-L;i++){ ···
写为:···for(int i=0;i<=s.size()-L;i++){ ···
测试用例:“AA”
报错:terminate called after throwing an instance of ‘std::out_of_range’
what(): basic_string::substr: __pos (which is 3) > this->size() (which is 2)
错误来自于。.size() .length() 的返回值,类型为string::size_name 是 unsigned int ,需要说明。原代码可以写为:···for(int i=0;i<=(int)s.size()-L;i++){···
- C++ hash 滑动窗口 位运算
class Solution {
const int L = 10;
unordered_map<char, int> bin = {{'A', 0}, {'C', 1}, {'G', 2}, {'T', 3}};
public:
vector<string> findRepeatedDnaSequences(string s) {
vector<string> ans;
int n = s.length();
if (n <= L) {
return ans;
}
int x = 0;
for (int i = 0; i < L - 1; ++i) {
x = (x << 2) | bin[s[i]];
} //初始化第一个10位整数
unordered_map<int, int> cnt;
for (int i = 0; i <= n - L; ++i) {
x = ((x << 2) | bin[s[i + L - 1]]) & ((1 << (L * 2)) - 1);
if (++cnt[x] == 2) {
ans.push_back(s.substr(i, L));
}
}
return ans;
}
};