所有 DNA 都由一系列缩写为 'A','C','G' 和 'T' 的核苷酸组成,例如:"ACGAATTCCG"。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来找出所有目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。
示例 1:
输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出:["AAAAACCCCC","CCCCCAAAAA"]
方法一:哈希表
事实上对于每个长度为10的字符字串,我们都可以计算它的哈希值来判断是否重复出现,基于以上思想,博主第一次尝试的代码直接以 hashCode 作为索引企图减少运行时间,结果第 30/31 个示例给了一个超长字符串直接干了个哈希重复出来,便为求方便使用子字符串作为索引。本代码可进一步优化:
private final HashMap<String, Boolean> hashMap = new HashMap<>(1 << 4);
public List<String> findRepeatedDnaSequences(String s) {
List<String> result = new ArrayList<>(1 << 4);
i