在网上搜,看到很多题解的帖子,大咖们都很惜言,能一个字说的,绝不两个字,我看了一些,就把自己的理解详细写下了,所以写的比较啰嗦了
Description
PenguinQQ是中国最大、最具影响力的SNS(Social Networking Services)网站,以实名制为基础,为用户提供日志、群、即时通讯、相册、集市等丰富强大的互联网功能体验,满足用户对社交、资讯、娱乐、交易等多方面的需求。
小Q是PenguinQQ网站的管理员,他最近在进行一项有趣的研究——哪些账户是同一个人注册的。经过长时间的分析,小Q发现同一个人注册的账户名称总是很相似的,例如Penguin1,Penguin2,Penguin3……于是小Q决定先对这种相似的情形进行统计。
小Q定义,若两个账户名称是相似的,当且仅当这两个字符串等长且恰好只有一位不同。例如“Penguin1”和“Penguin2”是相似的,但“Penguin1”和“2Penguin”不是相似的。而小Q想知道,在给定的 个账户名称中,有多少对是相似的。
为了简化你的工作,小Q给你的 个字符串长度均等于 ,且只包含大小写字母、数字、下划线以及‘@’共64种字符,而且不存在两个相同的账户名称。
Input
第一行包含三个正整数 , , 。其中 表示账户名称数量, 表示账户名称长度, 用来表示字符集规模大小,它的值只可能为2或64。
若 等于2,账户名称中只包含字符‘0’和‘1’共2种字符;
若 等于64,账户名称中可能包含大小写字母、数字、下划线以及‘@’共64种字符。
随后 行,每行一个长度为 的字符串,用来描述一个账户名称。数据保证 个字符串是两两不同的
Output
仅一行一个正整数,表示共有多少对相似的账户名称
Sample Input
4 3 64
Fax
fax
max
mac
Sample Output
4
Hint
4对相似的字符串分别为:Fax与fax,Fax与max,fax与max,max与mac。N<=30000,L<=200,S<=64
题目分析
找相似的字符串,两个字符串相似,指的是只在某一个相同的位置上不同,其余的字符都相同。如 Fax和fax,max和mac
首先,还是字符串哈希,
如果两个字符串,仅在某一个相同位置上的字符不同,那么这两个字符串的hash值 减掉 这个位置上字符的hash值,剩余部分的值应该都相同
举个例子:Fax和fax
Fax的hash值:‘F’*p2+‘a’*p+‘x’,fax的hash值:‘f’*p2+‘a’*p+‘x’
他们都减掉第一个字符对应的hash值’F’*p2和’f’*p2
第一个字符串Fax: ( ‘F’*p2+‘a’*p+‘x’ ) - (‘F’*p2) = ‘a’*p+‘x’
第二个字符串fax: ( ‘f’*p2+‘a’*p+‘x’ ) - (‘F’*p2 ) = ‘a’*p+‘x’
再比如: dog 和dag,他们中间的一个字符不同
dog的hash值: ‘d’*p2 + ‘o’*p + ‘g’
dag的hash值: ‘d’*p2 + ‘a’*p + ‘g’
当他们都减掉中间一个字符的hash值后,剩余的结果应该相同
对于本题,对于所有的字符串,先计算好每一个字符串的hash值,然后循环L次(字符串长度为L),每次用每个字符串的hash值减掉第一个字符的hash值、减掉第二个字符的hash值…检查减掉后的值是否相同即可。
数据结构
计算字符串hash值是,p进制数的p取13331
用一个二位字符数组存放n个字符串,char s[30010][210];
用long long的数组h[ ]存放每个字符串的hash值
用long long的数组a[ ]存放每个字符串的hash值减掉相应字符hash后的值
用pow[ ]数组存放各位的权值
代码解读
//--------准备好pow数组存放各位权值-------
pow[0]=1;
for (i=1;i<=205;i++)
pow[i]=pow[i-1]*p;
读入Input
scanf("%d%d%*d",&n,&l); //n是字符串个数,l是每个字符串长度,
// 第三个参数 %*d的作用是读取但不存储,也就是跳过这个数据
接下来读入n个字符串到二维字符数组中,注意后面应用时下标都从1开始,因此读入字符串的时候,也是从s[i]+1读入
for (i=1;i<=n;i++)
scanf("%s",s[i]+1);
为每一个字符串计算hash值,存入h[i]中
for (i=1;i<=n;i++)
for (j=1;j<=l;j++)
h[i]=h[i]*p+s[i][j];
做一个二重循环,依次对每一个字符串减掉第1个、第2个…字符,得到减掉后的结果,每次减掉第i个字符后,检查结果是否有相同的并计数
ans=0;
for (j=1;j<=l;j++) //j控制是要减掉第几个字符
{
for (i=1;i<=n;i++) //i控制从1到n,每个字符串都减掉第j个字符
a[i]=h[i]-s[i][j]*pow[l-j]; //减后的结果放在数组a[]中
sort(a+1,a+n+1); //对a[]中的结果进行排序
temp=1;
for (i=2;i<=n;i++) //a[]中的结果已经排好序
if (a[i]==a[i-1]) //a[]中的结果两两比较
{
ans+=temp; //相同,ans就增加
temp++;
}
else
temp=1;
}
这里要对这段程序的几个细节搞清楚:
1、二重循环
for (j=1;j<=l;j++) //j控制是要减掉第几个字符
for (i=1;i<=n;i++) //i控制从1到n,每个字符串都减掉第j个字符
a[i]=h[i]-s[i][j]*pow[l-j]; //减后的结果放在数组a[]中
j=1时,i=1:a[1] = h[1] - s[1][1]*pow[2] //第1个字符串减掉第1个字符
j=1时,i=2:a[2] = h[2] - s[2][1]*pow[2] //第2个字符串减掉第1个字符
j=1时,i=3:a[3] = h[3] - s[3][1]*pow[2] //第3个字符串减掉第1个字符
j=1时,i=4:a[4] = h[4] - s[4][1]*pow[2] //第4个字符串减掉第1个字符
j=2时,i=1:a[1] = h[1] - s[1][1]*pow[1] //第1个字符串减掉第2个字符
j=2时,i=2:a[2] = h[2] - s[2][1]*pow[1] //第2个字符串减掉第2个字符
j=2时,i=3:a[3] = h[3] - s[3][1]*pow[1] //第3个字符串减掉第2个字符
j=2时,i=4:a[4] = h[4] - s[4][1]*pow[1] //第4个字符串减掉第2个字符
……
2、sort(a+1,a+n+1)
Sort()函数是c++一种排序方法之一,它使用的排序方法是类似于快排的方法,时间复杂度为n*log2(n),执行效率较高!它是c++标准库里的排序函数,使用方法:
I)Sort函数包含在头文件为#include的c++标准库中,调用标准库里的排序方法可以不必知道其内部是如何实现的,只要出现我们想要的结果即可!
II)Sort函数有三个参数:
(1)第一个是要排序的数组的起始地址。
(2)第二个是结束的地址(最后一位要排序的地址)
(3)第三个参数是排序的方法,可以是从大到小也可是从小到大,还可以不写第三个参数,此时默认的排序方法是从小到大排序。
3、统计相似的个数
这个统计还是有点技巧的,一定要搞明白细节
初始时,ans=0、temp=1
相减之后的结果在数组a[]中,且进行了排序,这时候做一个循环,对a[]中的结果进行两两比较,如果相同,则ans+=temp,且temp++,接下来两个结果如果还相同,则在ans上再加temp,为什么不是每次ans++呢
例子中,Fax、fax、max三个串去掉第一个字符后结果都相同,假设结果是5,那a[]={ 5,5,5,4},当循环i=2时,a[2] = a[1],找到了一对相似字符串:Fax和fax,ans+temp = 1;temp也加到2
接下来当循环i=3时,a[3]=a[2],也相同,又找到了一对相似字符串fax和max,同时,也意味着刚才的Fax和max也是一对相似字符串,因此ans要加2才对
如果两两比较时不同了,temp再回到1
完整代码如下(参考了冬令营讲师尹昊萱博客,感谢!:https://blog.csdn.net/sdfzyhx/article/details/51589779 )
#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;
char s[30010][210];
unsigned long long a[30010],pow[210],h[30010];
int p=13331;
int main()
{
int i,j,k,l,m,n,q,x,y,z,ans,temp;
pow[0]=1;
for (i=1;i<=205;i++)
pow[i]=pow[i-1]*p;
scanf("%d%d%*d",&n,&l);
for (i=1;i<=n;i++)
scanf("%s",s[i]+1);
for (i=1;i<=n;i++)
for (j=1;j<=l;j++)
h[i]=h[i]*p+s[i][j];
ans=0;
for (j=1;j<=l;j++)
{
for (i=1;i<=n;i++)
a[i]=h[i]-s[i][j]*pow[l-j];
sort(a+1,a+n+1);
temp=1;
for (i=2;i<=n;i++)
if (a[i]==a[i-1])
{
ans+=temp;
temp++;
}
else
temp=1;
}
printf("%d\n",ans);
}