LeetCode187. 重复的DNA序列

最新推荐文章于 2024-03-30 15:50:21 发布

Pi_dan

最新推荐文章于 2024-03-30 15:50:21 发布

阅读量514

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/qq_38595487/article/details/83476168

版权

算法专栏收录该内容

135 篇文章 0 订阅

订阅专栏

题目

所有 DNA 由一系列缩写为 A，C，G 和 T 的核苷酸组成，例如：“ACGAATTCCG”。在研究 DNA 时，识别 DNA 中的重复序列有时会对研究非常有帮助。

编写一个函数来查找 DNA 分子中所有出现超多一次的10个字母长的序列（子串）。

示例:
输入: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"

输出: ["AAAAACCCCC", "CCCCCAAAAA"]

分析

自己单纯用hash表做的，遍历每一个字串，一共是len-9个字串。

因为这个题的标签是位运算嘛，我也没有想到该怎么用位运算，提交之后看了别人的代码，然后跟着解题报告琢磨了会儿，原来是这样的～

因为就只有四个核苷酸，那我们可以这样表示，A--> 00, C --> 01, G --> 10, T--> 11；也就是A=0，C=1，G=2，T=3。

现在可以表示ACGT了，接着就是利用位运算来表示这个字符串的各个10长度子串。

每次都要先左移两位，然后和字符做与运算，

最后把我们10长度子串代表的数字放入set中。方便判断重复与否。看代码吧，说的不清楚。

代码

//这个是我自己写的没有脑子的代码
class Solution {
    public List<String> findRepeatedDnaSequences(String s) {
        Map<String,Integer> map = new HashMap<String, Integer>();
        List<String> list = new ArrayList<String>();
        for (int i = 0; i <= s.length()-10; i++) {
            String sm = s.substring(i,i+10);
            if (map.containsKey(sm)){
                if (map.get(sm) < 2) list.add(sm);
                map.put(sm,2);
            }else{
                map.put(sm,1);
            }
        }
        return list;
    }
}

public class Solution {
    public List<String> findRepeatedDnaSequences(String s) {
        
        Set<Integer> words = new HashSet<>();
        Set<Integer> doubleWords = new HashSet<>();
        List<String> res = new ArrayList<>();
        char[] map = new char[26];
        //map['A'-'A'] = 0; 将字符转换为数字映射
        map['C'-'A'] = 1;
        map['G'-'A'] = 2;
        map['T'-'A'] = 3;
        
        for(int i=0; i<s.length()-9; i++){
            int str = 0;
            for(int j=i; j<i+10; j++){  //找到当前十个字符的子串
                str <<= 2;
                str |= map[s.charAt(j)-'A'];
            }
            if(!words.add(str) && doubleWords.add(str)){ //子串出现次数大于一次时，将子串保存进结果集
                res.add(s.substring(i, i+10));
            }
        }
        return res;
    }
}

Pi_dan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LeetCode187. 重复的DNA序列

题目所有 DNA 由一系列缩写为 A，C，G 和 T 的核苷酸组成，例如：“ACGAATTCCG”。在研究 DNA 时，识别 DNA 中的重复序列有时会对研究非常有帮助。编写一个函数来查找 DNA 分子中所有出现超多一次的10个字母长的序列（子串）。示例:输入: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"输出: ["AAAAACCCCC",...
复制链接

扫一扫