所有 DNA 都由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来查找 DNA 分子中所有出现超过一次的 10 个字母长的序列(子串)。
示例:
输入:s = “AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT”
输出:[“AAAAACCCCC”, “CCCCCAAAAA”]
算法思路1:
枚举DNA字符串中所有长度为10的子串,将其插入到哈希map中,并记录子串的数量;遍历哈希map,将所有出现超过一次的子串储存到结果,算法复杂度为O(n)
class Solution {
public:
vector<string> findRepeatedDnaSequences(string s) {
map<string, int> word_map;
vector<string> result;
for (int i = 0; i < s.length(); i++){
string word = s.substr(i, 10);
if (word_map.find(word) != word_map.end()){ //若word在哈希中出现
word_map[word] ++;
}
else{
word_map[word] = 1;
}
}
map<string, int>::iterator it;
for (it = word_map.begin(); it != word_map.end(); it++){
if (it->second > 1){
result.push_back(it->first);
}
}
return result;
}
};
算法思路2:
将字符串哈希变为整数的哈希
将长度为10的DNA序列进行整数编码:
A,C,G 和 T 4个字符分别用[0,1,2,3] (二进制(00,01,10,11))所表示,故长度为10的DNA序列可以用20个比特位的整数所表示,可以采用整数映射进行解决
1、设置全局整数哈希int hash_map[1048576];1048576 = 2^20,表示所有长度为10的DNA序列
2、将DNA字符串的前10个字符使用左移位运算转化为整数key,hash_map[key]++
(key = key >> 2)
3、从DNA的第11个字符串开始,按顺序遍历各个字符,遇到第1个字符即将key右移2位(去掉最低位),并且将新的DNA字符s[i]转化为整数后,或到最高位(第19、20位),hash_map[key]++
(需要滑动窗口,去掉最后一个字符,添加新的首字符)
4、遍历哈希表hash_map,若hash_map[i] >1,将i从低位到高位转化为10个字符的DNA序列,push进结果数组
int hash_map[1048576] = {0}; //哈希太大,需要全局数组
class Solution {
public:
vector<string> findRepeatedDnaSequences(string s) {
vector<string> result;
if (s.length() < 10){
return result;
}
for (int i = 0; i < 1048576; i++){ //每次调用时需要更新全局数组
hash_map[i] = 0;
}
int char_map[128] = {0};
char_map['A'] = 0;
char_map['C'] = 1;
char_map['G'] = 2;
char_map['T'] = 3;
int key = 0;
for (int i = 9; i >= 0; i--){
key = (key << 2) + char_map[s[i]]; //将DNA字符串的前10个字符转化为数值key
}
hash_map[key] = 1;
for (int i = 10; i < s.length(); i++){
key = key >> 2;
key = key | (char_map[s[i]] << 18);
hash_map[key]++;
}
for (int i = 0; i < 1048576; i++){
if (hash_map[i] > 1){
result.push_back(chang_into_DNA(i));
}
}
return result;
}
string chang_into_DNA(int DNA){
static const char DNA_CHAR[] = {'A','C','G','T'};
string str;
for (int i = 0; i < 10; i++){
str += DNA_CHAR[DNA & 3]; //将一个长度为10的片段,从整数转为字符串,&3将所有最高位都&没了,为0,只有可能00、01、10、11
DNA = DNA >> 2; //向右移动2位,除以4
}
return str;
}
};