字母异位词分组——hash表的实践_vector<vector<string>

一、题目

给定一个字符串数组，将字母异位词组合在一起。字母异位词指字母相同，但排列不同的字符串。

二、解答

如果两个字符串互为字母异位词，当且仅当两个字符串包含的字母相同。所以同一组字母异位词中的字符串都相同，可以使用相同的字符作为一组字母异位词的标志。

现在，我们使用哈希表存储每一组字母异位词，其中哈希表的键为一组字母异位词的标志，哈希表的值为一组字母异位词列表。然后开始遍历每个字符串，对于每个字符串，得到该字符串所在的一组字母异位词的标志，将当前字符串加入该组字母异位词的集合中。遍历完全部字符串之后，哈希表中的每个键值对即为一组字母异位词。

以下的两种方法，分别使用排序和计数作为哈希表的键，获得最终的结果

方法一：排序

由于互为字母异位词的两个字符串包含的字母相同，因此对两个字符串分别进行排序之后得到的字符串一定是相同的，故可以将排序之后的字符串作为哈希表的键

class Solution {
public:
	vector<vector<string>> groupAnagrams(vector<string>& strs) {
		unordered_map<string, vector<string>> mp; //定义hashmap
		for (string& str : strs) {
			string key = str;
			sort(key.begin(), key.end()); //排序
			mp[key].emplace_back(str);
		}
		vector<vector<string>> ans;
		for (auto it = mp.begin(); it != mp.end(); ++it) {
			ans.emplace_back(it->second);
		}
		return ans;
	}
};

方法二：计数

由于互为字母异位词的两个字符串包含的字母相同，因此两个字符串中的相同字母出现的次数一定是相同的，故可以将每个字母出现的次数使用字符串表示，作为哈希表的键。

由于字符串只包含小写字母，因此对于每个字符串，可以使用长度为 26 的数组记录每个字母出现的次数。在使用数组作为哈希表的键时，不同语言的支持程度不同，需要保持注意

可以看到，只要是字母异位词，通过上面的方式转换，他们生成的字符串都是一样的

class Solution {

public:
    vector<vector<string>> groupAnagrams(vector<string> &strs)
    {
        if (strs.size() == 0){//边界条件判断
            return {};
        } 
        unordered_map<string, vector<string>> hashMap;  //定义HashMap
        for (string &str : strs) {
            char letterCounts[26] ={0};
            int length = str.size();

            for (int i = 0; i < length; ++i) {

                letterCounts[str[i] - 'a']++;  //统计字符串中每个字符串出现的次数
            }
            string keyStr = string(letterCounts,letterCounts+26); // 将统计每个字符出现次数的数组，转化为字符串
            hashMap[keyStr].emplace_back(str);
        }

        vector<vector<string>> ans;
        for (auto it = hashMap.begin(); it != hashMap.end(); ++it) {

            ans.emplace_back(it->second);
        }
        return ans;
    }
};

三、扩展

手写哈希:
哈希算法要求
将abc和bac我们认为他们是一类的字符串，计算得到的哈希值(特征值)应该一样，abc和bcd不是同一类，计算得到的哈希值应该不一样，这就是我们手写哈希算法的要求。
简单例子
将abc和bac映射成一个哈希值，简单映射我们可以把 a + b + c = 97 + 98 + 99 = 294作为哈希值，和 b + a + c = 98 + 97 + 99 = 294. 显然两个哈希值一样，这也是我们想要的结果，将这两个字符串映射成哈希值相同的结果，是我们需要的。
可是如果只进行简单相加会有一些错误的碰撞。例如：
acd和abe计算的结果是一样的。这不是我们想要的结果，所以我们要想出一个尽可能避免碰撞的哈希算法就行了。自己想些什么就写什么，尽量让哈希散列的范围较大就行。避免不必要的错误碰撞

class Solution {

public:
    int hash(string s)
    {
        if (!s.size())
            return 0;
        int ans = 0;
        for (char i : s) {
            ans = ans + 5 * i * i * i / 26 + i * 1009 -
                  i * i * 997;  // 随便写的，没有什么规律，尽量让哈希散列的范围较大就行了。避免不必要的碰撞。
        }
        return ans;
    };

    vector<vector<string>> groupAnagrams(vector<string> &strs)
    {
        if (!strs.size()){
            return {};
        }
        vector<vector<string>> ans;
        int index = 0;
        unordered_map<int, int> map;  //  第一个存哈希值， 第二个存下标

        for (int i = 0; i < strs.size(); i++) {
            int tempHash = hash(strs[i]); //hash值
            if (map.find(tempHash) != map.end()) {
                ans[map[tempHash]].push_back(strs[i]);
            } else {
                map[tempHash] = index;
                index++;
                vector<string> temp;
                temp.push_back(strs[i]);
                ans.push_back(temp);
            }
        }
        return ans;
    }
};

参考：

https://leetcode-cn.com/problems/group-anagrams/solution/zi-mu-yi-wei-ci-fen-zu-by-leetcode-solut-gyoc/

https://leetcode-cn.com/problems/group-anagrams/solution/shou-xie-ha-xi-beats100shi-jian-fu-za-du-fnb1/

https://leetcode-cn.com/problems/group-anagrams/solution/liang-chong-fang-shi-jie-jue-by-sdwwld/