题目描述
难度:中等
所有 DNA 都由一系列缩写为 ‘A’,‘C’,‘G’ 和 ‘T’ 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来找出所有目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。
示例 1:
输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出:["AAAAACCCCC","CCCCCAAAAA"]
示例 2:
输入:s = "AAAAAAAAAAAAA"
输出:["AAAAAAAAAA"]
提示:
0 <= s.length <= 105
s[i] 为 'A'、'C'、'G' 或 'T'
题解分析
分析题目,得知要求:目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次;
对于字符串子串,在得知长度之后,我们可以使用一个长度为 10 的滑动窗口来遍历字符串;
由于需要确保子串出现次数超过一次,可以使用 HashMap 来保存每个子串,对于重复出现的子串,加入到 list 集合中;
此时需要注意一点,返回的 list 集合中,不能出现重复的子串,这一点观察示例 2 可以发现,因为题目要求的是在 DNA 字符串 s 中出现次数超过一次,不论超过几次,list 集合之中只添加一次;
对于重复添加的子串,由于我们是利用 HashMap 查重,可以使用 Map 的 value 属性作为重复添加的判断条件,将 value 属性设置为布尔类型,对于已经添加到 list 集合中的子串,我们将其对于的 value 设值为 true ,代表已经添加过了,这样就可以避免重复在 list 中添加了;
解题代码
// 利用大小为10的滑动窗口和hashMap 避免重复答案
public List<String> findRepeatedDnaSequences(String s) {
ArrayList<String> values = new ArrayList<>();
if(s.length() <= 10) return values; // 保证字符串 s 至少有11个字符
StringBuilder sb = new StringBuilder(); // 滑动窗口
HashMap<String, Boolean> valueMap = new HashMap<>(); // 查重的map
for(int j = 0; j <= 9 ; j++){ // 放入第一个子串
sb.append(s.charAt(j));
}
String temp = sb.toString();
valueMap.put(temp,false); // 对于没有添加过的子串 value设值为 false
for (int i = 1; i <= s.length() - 10; i++) {
sb.deleteCharAt(0); // 删除最前面的字符 添加新子串的最后一个字符
sb.append(s.charAt(i + 9));
temp = sb.toString();
if (!valueMap.containsKey(temp)){ // map中不包含该子串
valueMap.put(temp,false); // 第一次加进map的字符都为 false
continue;
}
if(!valueMap.get(temp)){ // map中存在该子串,并且没有添加到list中
values.add(temp);
valueMap.replace(temp,true); // 添加过list的字符换成 true 这样就无法再添加
}
}
return values;
}
总结
这种解法相对来说理解起来不难,就是 滑动窗口 + map 的解法,但是在leetcode上跑的效果很不理想,如果想要更加高效的解法,可以去leetcode上看大牛使用数组+位运算的解题;
岁月悠悠,衰微只及肌肤;热忱抛却,颓废必致灵魂