思路:
又是一道很有代表性的题. 位操作. 如果不用位操作, 思路就很简单, 把每个长度为10的子串的出现次数都记录在一个哈希表中, 然后计次数即可. 但是这样会MLE. 所以要把每长度为10的子串的所有信息记录在一个int类型的整数里. ‘A’, ‘C’, ‘G’, ‘T’一共有四种可能, 每种字母给对应一个0-3之间的数即可. 这样最多会用20位. 下面的代码维护了一个长度为10的窗口, 这样代码就简单一些. 所以记得要给前12位加上掩码.
vector<string> findRepeatedDnaSequences(string s) {
vector<string> res;
unordered_map<int, int> m;
unordered_map<char, int> dict;
dict['A'] = 0;
dict['C'] = 1;
dict['G'] = 2;
dict['T'] = 3;
int val = 0;
for (int i = 0; i < s.length(); i++) {
val <<= 2;
val |= dict[s[i]];
val &= 0xFFFFF;
if (i < 9) continue;
if (++m[val] == 2)
res.push_back(s.substr(i - 9, 10));
}
return res;
}