力扣187-重复的DNA序列-C++

最新推荐文章于 2022-12-22 20:52:35 发布

TLJava^v^

最新推荐文章于 2022-12-22 20:52:35 发布

阅读量491

点赞数 1

分类专栏： # 力扣-C++

本文链接：https://blog.csdn.net/LJH132465/article/details/123306702

版权

c++ 力扣 DNA序列哈希表 DNA

力扣-C++ 专栏收录该内容

89 篇文章 3 订阅

订阅专栏

一、题目

DNA序列由一系列核苷酸组成，缩写为 'A', 'C', 'G' 和 'T'.。

例如，"ACGAATTCCG" 是一个 DNA序列。
在研究 DNA 时，识别 DNA 中的重复序列非常有用。

给定一个表示 DNA序列的字符串 s ，返回所有在 DNA 分子中出现不止一次的长度为 10 的序列(子字符串)。你可以按任意顺序返回答案。

示例 1：

输入：s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出：["AAAAACCCCC","CCCCCAAAAA"]
示例 2：

输入：s = "AAAAAAAAAAAAA"
输出：["AAAAAAAAAA"]

来源：力扣（LeetCode）
链接：https://leetcode-cn.com/problems/repeated-dna-sequences

二、思路

用一个哈希表存储已经出现过的子序列，以子序列为key，出现次数为value，用一个大小为10 的str子串作为滑动窗口，逐步向后推移，如果当前子序列出现过，且仅出现过一次，就加入到结果数组中，如果没有出现过，就将当前子序列加入到哈希表中，并设置value值为1，直至遍历完输入的 DNA序列。

三、代码

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        vector<string> ans;
        int len = s.size();
        if(len < 10) return ans;
        unordered_map<string, int> mp; //<子序列，出现次数>
        string str = s.substr(0, 10);
        mp.insert(make_pair(str, 1));
        for(int i=10; i< len; i++){
            str.erase(str.begin()); //删除子序列第一个字符
            str += s[i];   //在子序列最后面加上当前字符
            if(mp.find(str) != mp.end() && mp[str] == 1){
                ans.push_back(str);  //仅出现一次
                mp[str]++;
            }else{
                mp.insert(make_pair(str,1)); //没出现过
            }
        }
        return ans;
    }
};