字母异位词分组——hash表的实践

一、题目

给定一个字符串数组,将字母异位词组合在一起。字母异位词指字母相同,但排列不同的字符串。

二、解答

如果两个字符串互为字母异位词,当且仅当两个字符串包含的字母相同。所以同一组字母异位词中的字符串都相同,可以使用相同的字符作为一组字母异位词的标志。

现在,我们使用哈希表存储每一组字母异位词,其中哈希表的键为一组字母异位词的标志,哈希表的值为一组字母异位词列表。然后开始遍历每个字符串,对于每个字符串,得到该字符串所在的一组字母异位词的标志,将当前字符串加入该组字母异位词的集合中。遍历完全部字符串之后,哈希表中的每个键值对即为一组字母异位词。

以下的两种方法,分别使用排序和计数作为哈希表的键,获得最终的结果

方法一:排序

由于互为字母异位词的两个字符串包含的字母相同,因此对两个字符串分别进行排序之后得到的字符串一定是相同的,故可以将排序之后的字符串作为哈希表的键

class Solution {
public:
	vector<vector<string>> groupAnagrams(vector<string>& strs) {
		unordered_map<string, vector<string>> mp; //定义hashmap
		for (string& str : strs) {
			string key = str;
			sort(key.begin(), key.end()); //排序
			mp[key].emplace_back(str);
		}
		vector<vector<string>> ans;
		for (auto it = mp.begin(); it != mp.end(); ++it) {
			ans.emplace_back(it->second);
		}
		return ans;
	}
};

方法二:计数

由于互为字母异位词的两个字符串包含的字母相同,因此两个字符串中的相同字母出现的次数一定是相同的,故可以将每个字母出现的次数使用字符串表示,作为哈希表的键。

由于字符串只包含小写字母,因此对于每个字符串,可以使用长度为 26 的数组记录每个字母出现的次数。在使用数组作为哈希表的键时,不同语言的支持程度不同,需要保持注意

可以看到,只要是字母异位词,通过上面的方式转换,他们生成的字符串都是一样的 

class Solution {

public:
    vector<vector<string>> groupAnagrams(vector<string> &strs)
    {
        if (strs.size() == 0){//边界条件判断
            return {};
        } 
        unordered_map<string, vector<string>> hashMap;  //定义HashMap
        for (string &str : strs) {
            char letterCounts[26] ={0};
            int length = str.size();

            for (int i = 0; i < length; ++i) {

                letterCounts[str[i] - 'a']++;  //统计字符串中每个字符串出现的次数
            }
            string keyStr = string(letterCounts,letterCounts+26); // 将统计每个字符出现次数的数组,转化为字符串
            hashMap[keyStr].emplace_back(str);
        }

        vector<vector<string>> ans;
        for (auto it = hashMap.begin(); it != hashMap.end(); ++it) {

            ans.emplace_back(it->second);
        }
        return ans;
    }
};

三、扩展

手写哈希:
哈希算法要求
将abc和bac我们认为他们是一类的字符串,计算得到的哈希值(特征值)应该一样,abc和bcd不是同一类,计算得到的哈希值应该不一样,这就是我们手写哈希算法的要求。
简单例子
将abc和bac映射成一个哈希值,简单映射 我们可以 把 a + b + c = 97 + 98 + 99 = 294作为哈希值, 和 b + a + c = 98 + 97 + 99 = 294. 显然两个哈希值一样,这也是我们想要的结果,将这两个字符串映射成哈希值相同的结果,是我们需要的。
可是 如果只进行简单相加会有一些错误的碰撞。例如:
acd和abe计算的结果是一样的。这不是我们想要的结果,所以我们要想出一个尽可能避免碰撞的哈希算法就行了。 自己想些什么就写什么,尽量让哈希散列的范围较大就行。避免不必要的错误碰撞

class Solution {

public:
    int hash(string s)
    {
        if (!s.size())
            return 0;
        int ans = 0;
        for (char i : s) {
            ans = ans + 5 * i * i * i / 26 + i * 1009 -
                  i * i * 997;  // 随便写的,没有什么规律,尽量让哈希散列的范围较大就行了。避免不必要的碰撞。
        }
        return ans;
    };

    vector<vector<string>> groupAnagrams(vector<string> &strs)
    {
        if (!strs.size()){
            return {};
        }
        vector<vector<string>> ans;
        int index = 0;
        unordered_map<int, int> map;  //  第一个存哈希值, 第二个存下标

        for (int i = 0; i < strs.size(); i++) {
            int tempHash = hash(strs[i]); //hash值
            if (map.find(tempHash) != map.end()) {
                ans[map[tempHash]].push_back(strs[i]);
            } else {
                map[tempHash] = index;
                index++;
                vector<string> temp;
                temp.push_back(strs[i]);
                ans.push_back(temp);
            }
        }
        return ans;
    }
};

参考:

https://leetcode-cn.com/problems/group-anagrams/solution/zi-mu-yi-wei-ci-fen-zu-by-leetcode-solut-gyoc/

https://leetcode-cn.com/problems/group-anagrams/solution/shou-xie-ha-xi-beats100shi-jian-fu-za-du-fnb1/

https://leetcode-cn.com/problems/group-anagrams/solution/liang-chong-fang-shi-jie-jue-by-sdwwld/

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值