leetcode 187 重复的DNA序列(哈希or+位运算解决)

最新推荐文章于 2022-01-14 11:23:41 发布

不会code的菜鸟

最新推荐文章于 2022-01-14 11:23:41 发布

阅读量342

点赞数

分类专栏：数据结构与算法刷题专栏

本文链接：https://blog.csdn.net/CLZHIT/article/details/103971067

版权

数据结构与算法刷题专栏专栏收录该内容

84 篇文章 1 订阅

订阅专栏

所有 DNA 都由一系列缩写为 A，C，G 和 T 的核苷酸组成，例如：“ACGAATTCCG”。在研究 DNA 时，识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来查找 DNA 分子中所有出现超过一次的 10 个字母长的序列（子串）。
示例：
输入：s = “AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT”
输出：[“AAAAACCCCC”, “CCCCCAAAAA”]
算法思路1：
枚举DNA字符串中所有长度为10的子串，将其插入到哈希map中，并记录子串的数量；遍历哈希map，将所有出现超过一次的子串储存到结果，算法复杂度为O(n)

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        map<string, int> word_map;
        vector<string> result;
        for (int i = 0; i < s.length(); i++){
            string word = s.substr(i, 10);
            if (word_map.find(word) != word_map.end()){    //若word在哈希中出现
                word_map[word] ++;
            }
            else{
                word_map[word] = 1;
            }
        }
        map<string, int>::iterator it;
        for (it = word_map.begin(); it != word_map.end(); it++){
            if (it->second > 1){
                result.push_back(it->first);
            }
        }
        return result;
    }
};

算法思路2：
将字符串哈希变为整数的哈希
将长度为10的DNA序列进行整数编码：
A，C，G 和 T 4个字符分别用[0,1,2,3] (二进制(00,01,10,11))所表示，故长度为10的DNA序列可以用20个比特位的整数所表示，可以采用整数映射进行解决
1、设置全局整数哈希int hash_map[1048576]；1048576 = 2^20，表示所有长度为10的DNA序列
2、将DNA字符串的前10个字符使用左移位运算转化为整数key，hash_map[key]++
（key = key >> 2）
3、从DNA的第11个字符串开始，按顺序遍历各个字符，遇到第1个字符即将key右移2位(去掉最低位)，并且将新的DNA字符s[i]转化为整数后，或到最高位(第19、20位)，hash_map[key]++
(需要滑动窗口，去掉最后一个字符，添加新的首字符)
4、遍历哈希表hash_map，若hash_map[i] >1，将i从低位到高位转化为10个字符的DNA序列，push进结果数组

int hash_map[1048576] = {0};   //哈希太大，需要全局数组
class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        vector<string> result;
        if (s.length() < 10){
            return result;
        }
        for (int i = 0; i < 1048576; i++){    //每次调用时需要更新全局数组
            hash_map[i] = 0;
        }
        int char_map[128] = {0};
        char_map['A'] = 0;
        char_map['C'] = 1;
        char_map['G'] = 2;
        char_map['T'] = 3;
        int key = 0;
        for (int i = 9; i >= 0; i--){
            key = (key << 2) + char_map[s[i]];   //将DNA字符串的前10个字符转化为数值key
        }
        hash_map[key] = 1;
        for (int i = 10; i < s.length(); i++){
            key = key >> 2;
            key = key | (char_map[s[i]] << 18);
            hash_map[key]++;
        }
        for (int i = 0; i < 1048576; i++){
            if (hash_map[i] > 1){
                result.push_back(chang_into_DNA(i));
            }
        }
        return result;
    }
    string chang_into_DNA(int DNA){
        static const char DNA_CHAR[] = {'A','C','G','T'};
        string str;
        for (int i = 0; i < 10; i++){
            str += DNA_CHAR[DNA & 3];     //将一个长度为10的片段，从整数转为字符串，&3将所有最高位都&没了，为0，只有可能00、01、10、11
            DNA = DNA >> 2;     //向右移动2位，除以4
        }
        return str;
    }
};

不会code的菜鸟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
leetcode 187 重复的DNA序列(哈希or+位运算解决)

所有 DNA 都由一系列缩写为 A，C，G 和 T 的核苷酸组成，例如：“ACGAATTCCG”。在研究 DNA 时，识别 DNA 中的重复序列有时会对研究非常有帮助。编写一个函数来查找 DNA 分子中所有出现超过一次的 10 个字母长的序列（子串）。示例：输入：s = “AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT”输出：[“AAAAACCCCC”, “CCCCCAA...
复制链接

扫一扫