所有 DNA 都由一系列缩写为 ‘A’,‘C’,‘G’ 和 ‘T’ 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来找出所有目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。
示例 1:
输入:s = “AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT”
输出:[“AAAAACCCCC”,“CCCCCAAAAA”]
思路:
滑动窗口+hashmap
滑动窗口生成对应的子串,然后hashmap记录每个子串出现的次数
public List<String> findRepeatedDnaSequences(String s) {
Map<String, Integer> result = new HashMap<>();
List<String> ans = new ArrayList<>();
if (s.length()<10) {
return ans;
}
for (int i = 0; i <= s.length() - 10; i++) {
String substring = s.substring(i, i + 10);
result.put(substring, result.get(substring) == null ? 1 : result.get(substring) + 1);
}
for (String s1 : result.keySet()) {
if (result.get(s1) > 1) {
ans.add(s1);
}
}
return ans;
}