LeetCode——Repeated DNA Sequences

题目描述:

All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". When studying DNA, it is sometimes useful to identify repeated sequences within the DNA.

Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.

我的问题解答过程:

(为方便举例,将题目中的长度为10,改为长度为3)

最开始我采用的是暴利枚举方法,其过程如下:

即假设有字符串AATTGGAATTCCGG,先提取出前三个AAT,然后直接用indexOf函数在剩余的字符串中寻找是否仍然含有AAT,因时间复杂度过高,超时。

于是百思不得其解,百度之,得到了Hash方法,其hash值计算方法为:

因为只有ACGT四个字母,那么用2个bit即可以表示,即00,01,10,11即可。

于是乎,10个连续的字符的hash值计算方法为:

<span style="font-family: Arial, Helvetica, sans-serif;"><span style="white-space:pre">		</span>int hash = 0;</span>
<span style="font-family: Arial, Helvetica, sans-serif;">for(int loc = 0; loc <= 9; ++loc)</span>
{
	hash = (hash << 2) + ACGT对应的数字
}

在掌握了Hash计算方法之后,实现的第一个版本为:

即假设有字符串AATTGGAATTCCGG,然后暴力计算出此字符串中所有的连续三个数字的hash值,比如AAT的hash值为000011,ATT的hash值为001111,然后将所有的hash值依次加入到一个map(key:hash值,value:对应此hash值得连续10个字母的开始位置)中,如果有重复的,则加入到结果中。但是由于此种方法要计算所有连续10个字母的hash值,时间和空间的复杂度都较高,超时。

于是乎又重新拜读了了下大神的代码,发现有可改进之处,比如已经计算好了AAT,下一个连续三个的字符串是ATT,则只需要将AAT的hash值向左移动2位再加入T的hash码(11)即可。这样大大减少了Hash的计算时间以及空间消耗,ac

代码如下:

public class Solution {
    
    public List<String> findRepeatedDnaSequences(String s) {
        
        List<String> re = new LinkedList<String>();
        
        //hash值,出现的次数(如果重复则变为负数)
        Map<Integer,Integer> tenHash = new HashMap<Integer,Integer>();
        
        Map<Character, Integer> cToi = new HashMap<Character, Integer>();
        cToi.put('A',0);
        cToi.put('C',1);
        cToi.put('G',2);
        cToi.put('T',3);
        
        Integer key = 0;
        
        if(null == s || s.length() < 10)
        {
            return re;
        }
        
        //产生初始的key
        for(int i = 0; i <=9 ;++i)
        {
            key = (key << 2) + cToi.get(s.charAt(i));
        }
        
        //将初始key加入到列表中
        tenHash.put(key, 1);
        
        for(int loc = 10; loc <= s.length() - 1 ; ++loc)
        {
            key = ((key & 0x3ffff) << 2) | cToi.get(s.charAt(loc));
            
            //已经存在,且恰巧只出现过1次
            if(true == tenHash.containsKey(key) && tenHash.get(key) == 1)
            {
                tenHash.put(key, 2);
                re.add(s.substring(loc - 9, loc + 1));
            }
            else if(false == tenHash.containsKey(key))
            {
                tenHash.put(key, 1);
            }
        }
        
        return re;
    }
}

算法原版思路出处:

http://blog.csdn.net/xudli/article/details/43666725

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值