题目
PenguinQQ是中国最大、最具影响力的SNS(Social Networking Services)网站,以实名制为基础,为用户提供日志、群、即时通讯、相册、集市等丰富强大的互联网功能体验,满足用户对社交、资讯、娱乐、交易等多方面的需求。
小Q是PenguinQQ网站的管理员,他最近在进行一项有趣的研究——哪些账户是同一个人注册的。经过长时间的分析,小Q发现同一个人注册的账户名称总是很相似的,例如Penguin1,Penguin2,Penguin3……于是小Q决定先对这种相似的情形进行统计。
小Q定义,若两个账户名称是相似的,当且仅当这两个字符串等长且恰好只有一位不同。例如“Penguin1”和“Penguin2”是相似的,但“Penguin1”和“2Penguin”不是相似的。而小Q想知道,在给定的 个账户名称中,有多少对是相似的。
为了简化你的工作,小Q给你的 个字符串长度均等于 ,且只包含大小写字母、数字、下划线以及‘@’共64种字符,而且不存在两个相同的账户名称。
Input
第一行包含三个正整数n, l,s 。其中n 表示账户名称数量, l表示账户名称长度,s 用来表示字符集规模大小,它的值只可能为2或64。
若 等于2,账户名称中只包含字符‘0’和‘1’共2种字符;
若 等于64,账户名称中可能包含大小写字母、数字、下划线以及‘@’共64种字符。
随后 行,每行一个长度为 的字符串,用来描述一个账户名称。数据保证 个字符串是两两不同的。
Output
仅一行一个正整数,表示共有多少对相似的账户名称。
Sample Input
4 3 64
Fax
fax
max
mac
Sample Output
4
HINT
4对相似的字符串分别为:Fax与fax,Fax与max,fax与max,max与mac。N<=30000,L<=200,S<=64
思路
第一次思路(不正确)
第一次思路当时感觉很好,虽然结果,但还是贴出来留个纪念,毕竟是个思考的过程。当时想的是把256个ascii吗用哈希的思想来统计每一位出现的次数,比如当处理Fax,由于是第一次,所以只把对应字符的计数加1,当处理fax时,我们通过查找,发现原来的a,x,F出现1次,而f出现0次,故存在n - 1为计数相等的情况,所以一样的对数为ax出现的次数加1。但是这个思路有个致命的做法,两个字符串相同的部分在之和的统计中,可能出现次数不一致的情况。当考察到mac时,原来的m出现1次,而a出现了4次,所以导致误判,错认为ma不是公共部分。
第二次思路
通过观察发现,L的长度较小,可以出L和字符串哈希值出发。我们枚举去掉L中某一位后的各字符串的哈希值,然后排序,这样相似的字符必然聚集在一起,一次遍历即可统计出次数。
那么如何计算字符串的哈希值呢?
这里采用的映射的函数思想来自与进制转换。因为对于任何2个某进制位下的进制表示,转换为十进制后必然不同,所以这里采用将字符串看做某进制下的进制表示(这里定为大于256的某个质数即可)。
num的p进制转换为十进制的公式为: