LeetCode——Repeated DNA Sequences

最新推荐文章于 2020-10-17 17:27:32 发布

canglingye

最新推荐文章于 2020-10-17 17:27:32 发布

阅读量1.8k

点赞数

分类专栏： oj 文章标签： leetcode 算法 java

本文链接：https://blog.csdn.net/canglingye/article/details/43669979

版权

oj 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

题目描述：

All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". When studying DNA, it is sometimes useful to identify repeated sequences within the DNA.

Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.

我的问题解答过程：

（为方便举例，将题目中的长度为10，改为长度为3）

最开始我采用的是暴利枚举方法，其过程如下：

即假设有字符串AATTGGAATTCCGG，先提取出前三个AAT，然后直接用indexOf函数在剩余的字符串中寻找是否仍然含有AAT，因时间复杂度过高，超时。

于是百思不得其解，百度之，得到了Hash方法，其hash值计算方法为：

因为只有ACGT四个字母，那么用2个bit即可以表示，即00,01,10,11即可。

于是乎，10个连续的字符的hash值计算方法为：

<span style="font-family: Arial, Helvetica, sans-serif;"><span style="white-space:pre">		</span>int hash = 0;</span>

<span style="font-family: Arial, Helvetica, sans-serif;">for(int loc = 0; loc <= 9; ++loc)</span>

{
	hash = (hash << 2) + ACGT对应的数字
}

在掌握了Hash计算方法之后，实现的第一个版本为：

即假设有字符串AATTGGAATTCCGG，然后暴力计算出此字符串中所有的连续三个数字的hash值，比如AAT的hash值为000011,ATT的hash值为001111，然后将所有的hash值依次加入到一个map(key：hash值，value：对应此hash值得连续10个字母的开始位置)中，如果有重复的，则加入到结果中。但是由于此种方法要计算所有连续10个字母的hash值，时间和空间的复杂度都较高，超时。

于是乎又重新拜读了了下大神的代码，发现有可改进之处，比如已经计算好了AAT，下一个连续三个的字符串是ATT，则只需要将AAT的hash值向左移动2位再加入T的hash码(11)即可。这样大大减少了Hash的计算时间以及空间消耗，ac

代码如下：

public class Solution {
    
    public List<String> findRepeatedDnaSequences(String s) {
        
        List<String> re = new LinkedList<String>();
        
        //hash值,出现的次数（如果重复则变为负数）
        Map<Integer,Integer> tenHash = new HashMap<Integer,Integer>();
        
        Map<Character, Integer> cToi = new HashMap<Character, Integer>();
        cToi.put('A',0);
        cToi.put('C',1);
        cToi.put('G',2);
        cToi.put('T',3);
        
        Integer key = 0;
        
        if(null == s || s.length() < 10)
        {
            return re;
        }
        
        //产生初始的key
        for(int i = 0; i <=9 ;++i)
        {
            key = (key << 2) + cToi.get(s.charAt(i));
        }
        
        //将初始key加入到列表中
        tenHash.put(key, 1);
        
        for(int loc = 10; loc <= s.length() - 1 ; ++loc)
        {
            key = ((key & 0x3ffff) << 2) | cToi.get(s.charAt(loc));
            
            //已经存在,且恰巧只出现过1次
            if(true == tenHash.containsKey(key) && tenHash.get(key) == 1)
            {
                tenHash.put(key, 2);
                re.add(s.substring(loc - 9, loc + 1));
            }
            else if(false == tenHash.containsKey(key))
            {
                tenHash.put(key, 1);
            }
        }
        
        return re;
    }
}

算法原版思路出处：

http://blog.csdn.net/xudli/article/details/43666725

canglingye

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
LeetCode——Repeated DNA Sequences

题目描述：All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". When studying DNA, it is sometimes useful to identify repeated sequences within the
复制链接

扫一扫