结合 lgj 的讲课和自己的理解随便写写,如有不当之处请指出。
Hash(中文常译为“哈希”)是一种映射,一般用于将一些样本不多,但单个数据规模较大的数据进行重编码和映射,从而达到快速索引和修改的效果,是 OI 竞赛中的利器,特别在字符串编码等方面表现优秀。
为了更直观地理解 Hash 的用途,我们不妨先来看这样一道例题:
【题目描述】输入若干个数,依次输出每个数是第几次出现的。
【样例输入】3 5 3 3 5 7
【样例输出】1 1 2 3 2 1
【数据范围】 n≤105,ai≤109
乍一看,这道题目实在太简单了,排个序不就完了吗?
离线的做法确实可行。但是,如果出题人用一些手段,强制在线呢?
事实上,即便如此,也可以用 STL 的 map 或手写平衡树解决,每次查询的时间复杂度都为 O(log2n) ,是比较优秀的做法。
不过,用 Hash 也可以又快又方便地解决这个问题。
我们知道,问题的关键就在于,我们必然要维护一个表,每次在表中查找一个数,看有还是没有。如果有,还要得到附加信息——之前出现的次数。查找完之后要更新这个表。而这种表就是一种很典型的 Hash 表。
前面提到,Hash 包含了一种编码的思想,那么就必然涉及编码算法。对于整数而言,最简单、最常用的编码方法往往是——对一个质数取模。
不妨设这个质数为