习题3-7　DNA序列（DNA Consensus String, ACM/ICPC Seoul 2006, UVa1368）

最新推荐文章于 2021-12-30 15:07:01 发布

sz891016

最新推荐文章于 2021-12-30 15:07:01 发布

阅读量498

点赞数 3

分类专栏：算法入门刷题

本文链接：https://blog.csdn.net/sz891016/article/details/93626644

版权

算法入门刷题专栏收录该内容

5 篇文章 0 订阅

订阅专栏

这道题直接简单模拟就行。

输入m个长度均为n的DNA序列，求一个DNA序列，到所有序列的总Hamming距离尽量
小。两个等长字符串的Hamming距离等于字符不同的位置个数，例如，ACGT和GCGA的
Hamming距离为2（左数第1, 4个字符不同）。
输入整数m和n（4≤m≤50, 4≤n≤1000），以及m个长度为n的DNA序列（只包含字母
A，C，G，T），输出到m个序列的Hamming距离和最小的DNA序列和对应的距离。如有多
解，要求为字典序最小的解。例如，对于下面5个DNA序列，最优解为TAAGATAC。

TATGATAC
TAAGCTAC
AAAGATCC
TGAGATAC
TAAGATGT

思路：

1、遍历每一列，找出该列中出现次数最多的字符，将该字符赋值给结果串；

2、遍历每一列，与结果串作比较，找出每列的字符差异数，累加。

注:多个解时，要求按照字典序最小输出，所以一开始我就把四个字符按照字典序排列后再去进行多个序列的比对。这样自然就是字典序最小的。

即char alpha[] = {'A','C','G','T'};

代码

/*习题3-7　DNA序列（DNA Consensus String, ACM/ICPC Seoul 2006, UVa1368）*/
#include<stdio.h>
#include<ctype.h>

int main()
{
   int T;
   scanf("%d",&T);
   while(T--)
   {
       int m,n,i,j,k;
       scanf("%d %d",&m,&n);
       char a[m+1][n+1],res[n];
       char alpha[] = {'A','C','G','T'};
       char tmpc;
       for(i=0;i<m;i++)
           scanf("%s",a[i]);
       //找结果序列
       for(j=0;j<n;j++)
       {
           int cnt=0;
           //找出该列中出现次数最多的字符
           for(k=0;k<4;k++)
           {
               int num=0;
               for(i=0;i<m;i++)
               {
                   if(a[i][j]==alpha[k]) num++;
               }
               if(num>cnt)
               {
                   cnt = num;
                   tmpc = alpha[k];
               }
           }
           res[j] = tmpc;
       }
       //找差异次数
       int gap = 0;
       for(j=0;j<n;j++)
           for(i=0;i<m;i++)
               if(a[i][j]!=res[j]) gap++;
       for(j=0;j<n;j++)
           printf("%c",res[j]);
       printf("\n%d\n",gap);
   }
   return 0;
}