题目
所有 DNA 由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来查找 DNA 分子中所有出现超多一次的10个字母长的序列(子串)。
示例:
输入: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT" 输出: ["AAAAACCCCC", "CCCCCAAAAA"]
分析
自己单纯用hash表做的,遍历每一个字串,一共是len-9个字串。
因为这个题的标签是位运算嘛,我也没有想到该怎么用位运算,提交之后看了别人的代码,然后跟着解题报告琢磨了会儿,原来是这样的~
因为就只有四个核苷酸,那我们可以这样表示,A--> 00, C --> 01, G --> 10, T--> 11;也就是A=0,C=1,G=2,T=3。
现在可以表示ACGT了,接着就是利用位运算来表示这个字符串的各个10长度子串。
每次都要先左移两位,然后和字符做与运算,
最后把我们10长度子串代表的数字放入set中。方便判断重复与否。看代码吧,说的不清楚。
代码
//这个是我自己写的没有脑子的代码
class Solution {
public List<String> findRepeatedDnaSequences(String s) {
Map<String,Integer> map = new HashMap<String, Integer>();
List<String> list = new ArrayList<String>();
for (int i = 0; i <= s.length()-10; i++) {
String sm = s.substring(i,i+10);
if (map.containsKey(sm)){
if (map.get(sm) < 2) list.add(sm);
map.put(sm,2);
}else{
map.put(sm,1);
}
}
return list;
}
}
public class Solution {
public List<String> findRepeatedDnaSequences(String s) {
Set<Integer> words = new HashSet<>();
Set<Integer> doubleWords = new HashSet<>();
List<String> res = new ArrayList<>();
char[] map = new char[26];
//map['A'-'A'] = 0; 将字符转换为数字映射
map['C'-'A'] = 1;
map['G'-'A'] = 2;
map['T'-'A'] = 3;
for(int i=0; i<s.length()-9; i++){
int str = 0;
for(int j=i; j<i+10; j++){ //找到当前十个字符的子串
str <<= 2;
str |= map[s.charAt(j)-'A'];
}
if(!words.add(str) && doubleWords.add(str)){ //子串出现次数大于一次时,将子串保存进结果集
res.add(s.substring(i, i+10));
}
}
return res;
}
}