Day 6 哈希表part01：242.有效的字母异位词 , 349. 两个数组的交集 , 202. 快乐数, 1. 两数之和

茱迪chen

已于 2023-07-04 11:14:53 修改

阅读量1.2k

点赞数

分类专栏： Leetcode刷题记录文章标签：散列表数据结构

于 2023-07-03 14:43:14 首次发布

本文链接：https://blog.csdn.net/qq_44665162/article/details/131512839

版权

Leetcode刷题记录专栏收录该内容

32 篇文章 0 订阅

订阅专栏

哈希表理论基础

要了解哈希表的内部实现原理，哈希函数，哈希碰撞，以及常见哈希表的区别，数组，set 和map。

什么时候想到用哈希法，当我们遇到了要快速判断一个元素是否出现集合里的时候，就要考虑哈希法。这句话很重要，大家在做哈希表题目都要思考这句话。

1. 哈希表定义

哈希表（英文名字为Hash table，国内也有一些算法书籍翻译为散列表，大家看到这两个名称知道都是指hash table就可以了）。

哈希表是根据关键码的值而直接进行访问的数据结构。

直白来讲其实数组就是一张哈希表。哈希表中关键码就是数组的索引下标，然后通过下标直接访问数组中的元素，如下图所示：

那么哈希表能解决什么问题呢，一般哈希表都是用来快速判断一个元素是否出现集合里。

例如要查询一个名字是否在这所学校里。

要枚举的话时间复杂度是O(n)，但如果使用哈希表的话，只需要O(1)就可以做到。

我们只需要初始化把这所学校里学生的名字都存在哈希表里，在查询的时候通过索引直接就可以知道这位同学在不在这所学校里了。

将学生姓名映射到哈希表上就涉及到了hash function ，也就是哈希函数。

2. 哈希函数

哈希函数，把学生的姓名直接映射为哈希表上的索引，然后就可以通过查询索引下标快速知道这位同学是否在这所学校里了。

哈希函数如下图所示，通过hashCode把名字转化为数值，一般hashcode是通过特定编码方式，可以将其他数据格式转化为不同的数值，这样就把学生名字映射为哈希表上的索引数字了。

如果hashCode得到的数值大于哈希表的大小了，也就是大于tableSize了，怎么办呢？

此时为了保证映射出来的索引数值都落在哈希表上，我们会在再次对数值做一个取模的操作，就要我们就保证了学生姓名一定可以映射到哈希表上了。

此时问题又来了，哈希表我们刚刚说过，就是一个数组。

如果学生的数量大于哈希表的大小怎么办，此时就算哈希函数计算的再均匀，也避免不了会有几位学生的名字同时映射到哈希表同一个索引下标的位置。

接下来哈希碰撞登场

3.哈希碰撞

如图所示，小李和小王都映射到了索引下标 1 的位置，这一现象叫做哈希碰撞。

一般哈希碰撞有两种解决方法，拉链法和线性探测法。

3.1 拉链法

刚刚小李和小王在索引1的位置发生了冲突，发生冲突的元素都被存储在链表中。这样我们就可以通过索引找到小李和小王了

（数据规模是dataSize，哈希表的大小为tableSize）

其实拉链法就是要选择适当的哈希表的大小，这样既不会因为数组空值而浪费大量内存，也不会因为链表太长而在查找上浪费太多时间。

3.2 线性探测法

使用线性探测法，一定要保证tableSize大于dataSize。我们需要依靠哈希表中的空位来解决碰撞问题。

例如冲突的位置，放了小李，那么就向下找一个空位放置小王的信息。所以要求tableSize一定要大于dataSize ，要不然哈希表上就没有空置的位置来存放冲突的数据了。如图所示：

4. 常见的三种哈希结构

当我们想使用哈希法来解决问题的时候，我们一般会选择如下三种数据结构。

数组
set （集合）
map(映射)

这里数组就没啥可说的了，我们来看一下set。

在C++中，set 和 map 分别提供以下三种数据结构，其底层实现以及优劣如下表所示：

std::unordered_set底层实现为哈希表，std::set 和std::multiset 的底层实现是红黑树，红黑树是一种平衡二叉搜索树，所以key值是有序的，但key不可以修改，改动key值会导致整棵树的错乱，所以只能删除和增加。

std::unordered_map 底层实现为哈希表，std::map 和std::multimap 的底层实现是红黑树。同理，std::map 和std::multimap 的key也是有序的（这个问题也经常作为面试题，考察对语言容器底层的理解）。

当我们要使用集合来解决哈希问题的时候，优先使用unordered_set，因为它的查询和增删效率是最优的，如果需要集合是有序的，那么就用set，如果要求不仅有序还要有重复数据的话，那么就用multiset。

那么再来看一下map ，在map 是一个key value 的数据结构，map中，对key是有限制，对value没有限制的，因为key的存储方式使用红黑树实现的。

其他语言例如：java里的HashMap ，TreeMap 都是一样的原理。可以灵活贯通。

虽然std::set、std::multiset 的底层实现是红黑树，不是哈希表，std::set、std::multiset 使用红黑树来索引和存储，不过给我们的使用方式，还是哈希法的使用方式，即key和value。所以使用这些数据结构来解决映射问题的方法，我们依然称之为哈希法。 map也是一样的道理。

这里在说一下，一些C++的经典书籍上例如STL源码剖析，说到了hash_set hash_map，这个与unordered_set，unordered_map又有什么关系呢？

实际上功能都是一样一样的，但是unordered_set在C++11的时候被引入标准库了，而hash_set并没有，所以建议还是使用unordered_set比较好，这就好比一个是官方认证的，hash_set，hash_map 是C++11标准之前民间高手自发造的轮子。

5. 总结

总结一下，当我们遇到了要快速判断一个元素是否出现集合里的时候，就要考虑哈希法。

但是哈希法也是牺牲了空间换取了时间，因为我们要使用额外的数组，set或者是map来存放数据，才能实现快速的查找。

如果在做面试题目的时候遇到需要判断一个元素是否出现过的场景也应该第一时间想到哈希法！

242. 有效的字母异位词

给定两个字符串 s 和 t ，编写一个函数来判断 t 是否是 s 的字母异位词。

注意：若 s 和 t 中每个字符出现的次数都相同，则称 s 和 t 互为字母异位词。

示例 1:

输入: s = "anagram", t = "nagaram"
输出: true
示例 2:

输入: s = "rat", t = "car"
输出: false

提示:

1 <= s.length, t.length <= 5 * 104
s 和 t 仅包含小写字母

进阶: 如果输入字符串包含 unicode 字符怎么办？你能否调整你的解法来应对这种情况？

这里选择数组的数据结构来解决这道题，代码思路：

初始化一个长度为26的数组record（对应26个英文字母），用于记录字符串s中各个字符的出现次数。
遍历字符串s，对应的字符在数组中的计数增加。通过字符的ASCII码减去'a'的ASCII码，得到一个相对于'a'的索引值（例如，'a'的索引为0，'b'的索引为1，'z'的索引为25）。
遍历字符串t，对应的字符在数组中的计数减少。这样，如果t是s的字母异位词，那么减少后的计数应该都为0（因为s和t包含的字符数量是完全相等的）。
最后，遍历整个数组，检查是否所有元素都为0。如果所有元素都为0，说明s和t是字母异位词，返回True；否则，返回False（说明s和t中至少有一个字符的数量不匹配）。

class Solution(object):
    def isAnagram(self, s, t):
        """
        :type s: str
        :type t: str
        :rtype: bool
        """

        # 数组解法
        record = [0] * 26

        for i in s:
            record[ord(i) - ord('a')] += 1
        
        for i in t:
            record[ord(i) - ord('a')] -= 1

        for i in record:
            if i != 0:
                return False
        
        return True

对于record[ord(i) - ord("a")] += 1，这是一个计数的过程。我们通过ord(i) - ord("a")得到一个索引，然后在对应的数组位置上增加1。ord()函数会返回一个字符的ASCII码，所以ord(i) - ord("a")就会返回当前字符相对于'a'的偏移量。例如，对于字符'b'，ord('b') - ord('a')会返回1，这就是'b'相对于'a'的偏移量，我们会在数组的第1个位置上增加1。这样，数组的索引就对应了英文字母，数组的元素值就对应了该字母在字符串s中出现的次数。

同时我也实现了字典解法：

class Solution(object):
    def isAnagram(self, s, t):
        """
        :type s: str
        :type t: str
        :rtype: bool
        # 数组
        time: O(n)
        space: O(1)  record 数组的大小不随着输入字符串的长度 n 变化而变化。大小是固定的26
        # 字典
        time: O(n)
        space: O(n)
        """

        # map解法
        my_dict1 = {}
        my_dict2 = {}

        for i in s:
            if i not in my_dict1:
                my_dict1[i] = 1
            else: 
                my_dict1[i] += 1
        
        for i in t:
            if i not in my_dict2:
                my_dict2[i] = 1
            else: 
                my_dict2[i] += 1

        if my_dict1 == my_dict2:
            return True

        return False

349. 两个数组的交集

给定两个数组 nums1 和 nums2 ，返回它们的交集。输出结果中的每个元素一定是唯一的。我们可以不考虑输出结果的顺序。

示例 1：

输入：nums1 = [1,2,2,1], nums2 = [2,2]
输出：[2]
示例 2：

输入：nums1 = [4,9,5], nums2 = [9,4,9,8,4]
输出：[9,4]
解释：[4,9] 也是可通过的

提示：

1 <= nums1.length, nums2.length <= 1000
0 <= nums1[i], nums2[i] <= 1000

来源：力扣（LeetCode）

先使用set数据结构：

class Solution(object):
    def intersection(self, nums1, nums2):
        """
        :type nums1: List[int]
        :type nums2: List[int]
        :rtype: List[int]
        # 字典
        time: O(N + M)，其中 N 和 M 分别是 nums1 和 nums2 的长度。
        这是因为我们需要分别遍历这两个数组，以更新字典中的键值对。
        space: O(N + M)。这是因为我们将这两个数组转换为集合，需要额外的空间来存储这两个集合。
        """

        # set
        # 首先，将两个列表转化为集合，这样做可以去掉列表中的重复元素
        set1 = set(nums1)
        set2 = set(nums2)

        # 然后，使用集合的交集方法，求出两个集合的交集
        res = set1 & set2

        # 最后，将结果转化为列表并返回
        return list(res)

同时我也实现了字典解法：

class Solution(object):
    def intersection(self, nums1, nums2):
        """
        :type nums1: List[int]
        :type nums2: List[int]
        :rtype: List[int]
        # 字典
        time: O(N + M)，其中 N 和 M 分别是 nums1 和 nums2 的长度。
        这是因为我们需要分别遍历这两个数组，以更新字典中的键值对。
        space: O(N)
        """

        # 字典
        my_dict = {}

        for i in nums1:
            if i not in my_dict:
                my_dict[i] = 1

        for i in nums2:
            if i in my_dict:
                my_dict[i] = 2
     
        res = [k for k, v in my_dict.items() if v == 2]

        return res

最后数组解法作为扩展：

class Solution(object):
    def intersection(self, nums1, nums2):
        """
        :type nums1: List[int]
        :type nums2: List[int]
        :rtype: List[int]
        # 字典
        time: O(N + M)，其中 N 和 M 分别是 nums1 和 nums2 的长度。
        这是因为我们需要分别遍历这两个数组，以更新字典中的键值对。
        space: O(1) 是因为我们使用了固定长度的两个数组 count1 和 count2 来
        统计每个数字的出现次数，无论输入数组的长度如何，这两个数组的长度都是固定的，
        所以空间复杂度为常数
        """

        # 数组
        count1 = [0]*1001
        count2 = [0]*1001
        result = []
        for i in nums1:
            count1[i]+=1
        for j in nums2:
            count2[j]+=1
        for k in range(1001):
            if count1[k]*count2[k]>0:
                result.append(k)
        return result

202. 快乐数

编写一个算法来判断一个数 n 是不是快乐数。

「快乐数」定义为：

对于一个正整数，每一次将该数替换为它每个位置上的数字的平方和。
然后重复这个过程直到这个数变为 1，也可能是无限循环但始终变不到 1。
如果这个过程结果为 1，那么这个数就是快乐数。
如果 n 是快乐数就返回 true ；不是，则返回 false 。

示例 1：

输入：n = 19
输出：true
解释：
12 + 92 = 82
82 + 22 = 68
62 + 82 = 100
12 + 02 + 02 = 1
示例 2：

输入：n = 2
输出：false

提示：

1 <= n <= 231 - 1

题目中说了会 无限循环，那么也就是说求和的过程中，sum会重复出现，这对解题很重要！

正如一开始记录的重点，当我们遇到了要快速判断一个元素是否出现集合里的时候，就要考虑哈希法了。

所以这道题目使用哈希法，来判断这个sum是否重复出现，如果重复了就是return false，否则一直找到sum为1为止。

判断sum是否重复出现就可以使用unordered_set。

还有一个难点就是求和的过程，如果对取数值各个位上的单数操作不熟悉的话，做这道题也会比较艰难。

"快乐数"是指一个数字每一位的平方和，然后再加起来的结果最后会得到1。这个过程是循环的，我们可以将其视为一种迭代。而这种迭代有可能会进入一个无限循环，永远得不到1。

平方和计算方法有两种：方法一：

要定义一个新的方法：

 def get_sum(self,n: int) -> int: 
        new_num = 0
        while n:
            n, r = divmod(n, 10)
            new_num += r ** 2
        return new_num

这段代码是计算一个数的每一位的平方和。

这里以一个具体的例子来解释一下。假设n是123，我们想要计算这个数的每一位的平方和（即 1^2 + 2^2 + 3^2）。

while n > 0: 循环会一直进行，直到 n 为 0。这是因为我们每次循环都会把 n 除以10，也就是去掉最后一位。所以当 n 小于等于0时，说明所有的位都已经处理过了。
n, r = divmod(n, 10) 是用来获取 n 的最后一位数字，并将 n 除以10。比如第一次循环时 n 是 123，divmod(n, 10) 会返回 (12, 3)。这意味着我们取出了 n 的最后一位数字 3（存入 digit），并且 n 变成了 12。
total_sum += r ** 2 将取出的每一位数字的平方加到 new_num 中。

通过以上的步骤，我们能依次处理 n 的每一位数字，从而得到每一位数字的平方和。在这个例子中，返回的 total_sum 为 1^2 + 2^2 + 3^2 = 1 + 4 + 9 = 14。

方法二：

n = sum(int(i) ** 2 for i in str(n))

这道题可以通过使用一个集合（set）或字典（map）来解决。下面是具体的步骤：

初始化一个空集合（或空字典），用于存储已经出现过的数。
在循环中，首先检查当前的数是否已经出现过。如果出现过，说明已经进入了循环，可以直接返回 False。如果没有出现过，就将这个数添加到集合（或字典）中。
然后，计算这个数的每一位的平方和，更新这个数。

最后，如果这个数变成了1，说明它是一个快乐数，返回 True。如果这个数没有变成1，并且没有出现过，就继续循环。

方法1：

class Solution(object):
    def isHappy(self, n):
        """
        :type n: int
        :rtype: bool
        time: O(logN) N 是我们要检查的数字。这是因为我们在每一步都在减少大约 1/2 的数字。
        space: O(logN)
        """

        # 方法1
        seen = set()

        while n != 1 and n not in seen:
            seen.add(n)
            n = sum(int(i)**2 for i in str(n))
        return n == 1

方法2：

class Solution(object):
    def isHappy(self, n):
        """
        :type n: int
        :rtype: bool
        time: O(logN) N 是我们要检查的数字。这是因为我们在每一步都在减少大约 1/2 的数字。
        space: O(logN)
        """

        # 方法2
        def getSum(n):
            sum_results = 0
            while n > 0:
                n, r = divmod(n, 10)
                sum_results += r**2
            return sum_results
                
        seen = set()

        while n != 1 and n not in seen:
            seen.add(n)
            n = getSum(n) # 这里需要更新 n 的值
        return n == 1

1. 两数之和

给定一个整数数组 nums 和一个整数目标值 target，请你在该数组中找出和为目标值 target 的那两个整数，并返回它们的数组下标。

你可以假设每种输入只会对应一个答案。但是，数组中同一个元素在答案里不能重复出现。

你可以按任意顺序返回答案。

示例 1：

输入：nums = [2,7,11,15], target = 9
输出：[0,1]
解释：因为 nums[0] + nums[1] == 9 ，返回 [0, 1] 。
示例 2：

输入：nums = [3,2,4], target = 6
输出：[1,2]
示例 3：

输入：nums = [3,3], target = 6
输出：[0,1]

提示：

2 <= nums.length <= 104
-109 <= nums[i] <= 109
-109 <= target <= 109
只会存在一个有效答案

进阶：你可以想出一个时间复杂度小于 O(n2) 的算法吗？

这道题的map存储我们已经遍历过多少元素和下标，元素为key,下标为value。

class Solution(object):
    def twoSum(self, nums, target):
        """
        :type nums: List[int]
        :type target: int
        :rtype: List[int]
        """

        """
        time = O(n)
        space = O(n)
        """

        my_dict = {}

        for index, value in enumerate(nums):
            if target - value in my_dict:  # 遍历当前元素，并在map中寻找是否有匹配的key
                return [my_dict[target - value], index]
            my_dict[value] = index # 遍历当前元素，并在map中寻找是否有匹配的key

        return []

茱迪chen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Day 6 哈希表part01：242.有效的字母异位词 , 349. 两个数组的交集 , 202. 快乐数, 1. 两数之和

虽然std::set、std::multiset 的底层实现是红黑树，不是哈希表，std::set、std::multiset 使用红黑树来索引和存储，不过给我们的使用方式，还是哈希法的使用方式，即key和value。std::unordered_set底层实现为哈希表，std::set 和std::multiset 的底层实现是红黑树，红黑树是一种平衡二叉搜索树，所以key值是有序的，但key不可以修改，改动key值会导致整棵树的错乱，所以只能删除和增加。输出结果中的每个元素一定是唯一的。
复制链接

扫一扫