这道题直接简单模拟就行。
输入m个长度均为n的DNA序列,求一个DNA序列,到所有序列的总Hamming距离尽量
小。两个等长字符串的Hamming距离等于字符不同的位置个数,例如,ACGT和GCGA的
Hamming距离为2(左数第1, 4个字符不同)。
输入整数m和n(4≤m≤50, 4≤n≤1000),以及m个长度为n的DNA序列(只包含字母
A,C,G,T),输出到m个序列的Hamming距离和最小的DNA序列和对应的距离。如有多
解,要求为字典序最小的解。例如,对于下面5个DNA序列,最优解为TAAGATAC。
TATGATAC
TAAGCTAC
AAAGATCC
TGAGATAC
TAAGATGT
思路:
1、遍历每一列,找出该列中出现次数最多的字符,将该字符赋值给结果串;
2、遍历每一列,与结果串作比较,找出每列的字符差异数,累加。
注:多个解时,要求按照字典序最小输出,所以一开始我就把四个字符按照字典序排列后再去进行多个序列的比对。这样自然就是字典序最小的。
即char alpha[] = {'A','C','G','T'};
代码
/*习题3-7 DNA序列(DNA Consensus String, ACM/ICPC Seoul 2006, UVa1368)*/
#include<stdio.h>
#include<ctype.h>
int main()
{
int T;
scanf("%d",&T);
while(T--)
{
int m,n,i,j,k;
scanf("%d %d",&m,&n);
char a[m+1][n+1],res[n];
char alpha[] = {'A','C','G','T'};
char tmpc;
for(i=0;i<m;i++)
scanf("%s",a[i]);
//找结果序列
for(j=0;j<n;j++)
{
int cnt=0;
//找出该列中出现次数最多的字符
for(k=0;k<4;k++)
{
int num=0;
for(i=0;i<m;i++)
{
if(a[i][j]==alpha[k]) num++;
}
if(num>cnt)
{
cnt = num;
tmpc = alpha[k];
}
}
res[j] = tmpc;
}
//找差异次数
int gap = 0;
for(j=0;j<n;j++)
for(i=0;i<m;i++)
if(a[i][j]!=res[j]) gap++;
for(j=0;j<n;j++)
printf("%c",res[j]);
printf("\n%d\n",gap);
}
return 0;
}