leetcode 187 重复的DNA序列(哈希or+位运算解决)

所有 DNA 都由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来查找 DNA 分子中所有出现超过一次的 10 个字母长的序列(子串)。
示例:
输入:s = “AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT”
输出:[“AAAAACCCCC”, “CCCCCAAAAA”]
算法思路1:
枚举DNA字符串中所有长度为10的子串,将其插入到哈希map中,并记录子串的数量;遍历哈希map,将所有出现超过一次的子串储存到结果,算法复杂度为O(n)

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        map<string, int> word_map;
        vector<string> result;
        for (int i = 0; i < s.length(); i++){
            string word = s.substr(i, 10);
            if (word_map.find(word) != word_map.end()){    //若word在哈希中出现
                word_map[word] ++;
            }
            else{
                word_map[word] = 1;
            }
        }
        map<string, int>::iterator it;
        for (it = word_map.begin(); it != word_map.end(); it++){
            if (it->second > 1){
                result.push_back(it->first);
            }
        }
        return result;
    }
};

算法思路2:
将字符串哈希变为整数的哈希
将长度为10的DNA序列进行整数编码:
A,C,G 和 T 4个字符分别用[0,1,2,3] (二进制(00,01,10,11))所表示,故长度为10的DNA序列可以用20个比特位的整数所表示,可以采用整数映射进行解决
1、设置全局整数哈希int hash_map[1048576];1048576 = 2^20,表示所有长度为10的DNA序列
2、将DNA字符串的前10个字符使用左移位运算转化为整数key,hash_map[key]++
(key = key >> 2)
3、从DNA的第11个字符串开始,按顺序遍历各个字符,遇到第1个字符即将key右移2位(去掉最低位),并且将新的DNA字符s[i]转化为整数后,或到最高位(第19、20位),hash_map[key]++
(需要滑动窗口,去掉最后一个字符,添加新的首字符)
4、遍历哈希表hash_map,若hash_map[i] >1,将i从低位到高位转化为10个字符的DNA序列,push进结果数组

int hash_map[1048576] = {0};   //哈希太大,需要全局数组
class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        vector<string> result;
        if (s.length() < 10){
            return result;
        }
        for (int i = 0; i < 1048576; i++){    //每次调用时需要更新全局数组
            hash_map[i] = 0;
        }
        int char_map[128] = {0};
        char_map['A'] = 0;
        char_map['C'] = 1;
        char_map['G'] = 2;
        char_map['T'] = 3;
        int key = 0;
        for (int i = 9; i >= 0; i--){
            key = (key << 2) + char_map[s[i]];   //将DNA字符串的前10个字符转化为数值key
        }
        hash_map[key] = 1;
        for (int i = 10; i < s.length(); i++){
            key = key >> 2;
            key = key | (char_map[s[i]] << 18);
            hash_map[key]++;
        }
        for (int i = 0; i < 1048576; i++){
            if (hash_map[i] > 1){
                result.push_back(chang_into_DNA(i));
            }
        }
        return result;
    }
    string chang_into_DNA(int DNA){
        static const char DNA_CHAR[] = {'A','C','G','T'};
        string str;
        for (int i = 0; i < 10; i++){
            str += DNA_CHAR[DNA & 3];     //将一个长度为10的片段,从整数转为字符串,&3将所有最高位都&没了,为0,只有可能00、01、10、11
            DNA = DNA >> 2;     //向右移动2位,除以4
        }
        return str;
    }
};
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值