【Leetcode】187. Repeated DNA Sequences

最新推荐文章于 2024-07-22 16:27:42 发布

记录算法题解

最新推荐文章于 2024-07-22 16:27:42 发布

阅读量97

点赞数

分类专栏： LC 栈、队列、串及其他数据结构文章标签： leetcode 哈希表哈希字符串

本文链接：https://blog.csdn.net/qq_46105170/article/details/108787291

版权

LC 栈、队列、串及其他数据结构专栏收录该内容

716 篇文章 8 订阅

订阅专栏

题目地址：

https://leetcode.com/problems/repeated-dna-sequences/

给定一个长 $n$ 的字符串 $s$ ，问其长度为 $10$ 的子串中重复多于 $1$ 次的有哪些。

法1：哈希表。直接把每个长度为 $10$ 的字符串的count记下来，然后看计数大于 $1$ 的子串有哪些。代码如下：

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class Solution {
    public List<String> findRepeatedDnaSequences(String s) {
        Map<String, Integer> map = new HashMap<>();
        for (int i = 0; i <= s.length() - 10; i++) {
            String sub = s.substring(i, i + 10);
            map.put(sub, map.getOrDefault(sub, 0) + 1);
        }
    
        List<String> res = new ArrayList<>();
        for (Map.Entry<String, Integer> entry : map.entrySet()) {
            if (entry.getValue() > 1) {
                res.add(entry.getKey());
            }
        }
        
        return res;
    }
}

时空复杂度 $O (n)$ 。

法2：字符串哈希。把每个长度为 $10$ 的子串的哈希值求出来，这样可以提高判重的效率（判重的效率由判两个字符串相等变成了判两个整数相等，显然判整数相等效率更高）。代码如下：

import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;

public class Solution2 {
    public List<String> findRepeatedDnaSequences(String s) {
        if (s.length() < 10) {
            return new ArrayList<>();
        }
        
        Set<String> res = new HashSet<>();
        Set<Long> set = new HashSet<>();
    
        long hash = 0, pow = 1, p = 131;
        // 把s[0:9]的哈希值存入set
        for (int i = 0; i < 10; i++) {
            hash = hash * p + s.charAt(i);
            pow *= p;
        }
        
        set.add(hash);
        for (int i = 10; i < s.length(); i++) {
        	// 算出s[i-9:i]的哈希值
            hash = hash * p + s.charAt(i);
            hash -= pow * s.charAt(i - 10);
            
            // 发现出现多于1次了，则加入答案
            if (set.contains(hash)) {
                res.add(s.substring(i - 9, i + 1));
            } else {
                set.add(hash);
            }
        }
        
        return new ArrayList<>(res);
    }
}

时空复杂度 $O (n)$ 。

记录算法题解

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Leetcode】187. Repeated DNA Sequences

题目地址：https://leetcode.com/problems/repeated-dna-sequences/给定一个字符串，问其长度为101010的子串中重复多于111次的有哪些。直接用哈希表。直接把每个长度为101010的字符串的count记下来，然后看计数大于111的子串有哪些。代码如下：import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;p
复制链接

扫一扫

专栏目录