习题3-7 DNA序列(DNA Consensus String, ACM/ICPC Seoul 2006, UVa1368)

这道题直接简单模拟就行。

输入m个长度均为n的DNA序列,求一个DNA序列,到所有序列的总Hamming距离尽量
小。两个等长字符串的Hamming距离等于字符不同的位置个数,例如,ACGT和GCGA的
Hamming距离为2(左数第1, 4个字符不同)。
输入整数m和n(4≤m≤50, 4≤n≤1000),以及m个长度为n的DNA序列(只包含字母
A,C,G,T),输出到m个序列的Hamming距离和最小的DNA序列和对应的距离。如有多
解,要求为字典序最小的解。例如,对于下面5个DNA序列,最优解为TAAGATAC。

TATGATAC
TAAGCTAC
AAAGATCC
TGAGATAC
TAAGATGT

思路:

1、遍历每一列,找出该列中出现次数最多的字符,将该字符赋值给结果串;

2、遍历每一列,与结果串作比较,找出每列的字符差异数,累加。

注:多个解时,要求按照字典序最小输出,所以一开始我就把四个字符按照字典序排列后再去进行多个序列的比对。这样自然就是字典序最小的。

即char alpha[] = {'A','C','G','T'};

代码

/*习题3-7 DNA序列(DNA Consensus String, ACM/ICPC Seoul 2006, UVa1368)*/
#include<stdio.h>
#include<ctype.h>


int main()
{
    int T;
    scanf("%d",&T);
    while(T--)
    {
        int m,n,i,j,k;
        scanf("%d %d",&m,&n);
        char a[m+1][n+1],res[n];
        char alpha[] = {'A','C','G','T'};
        char tmpc;
        for(i=0;i<m;i++)
            scanf("%s",a[i]);
        //找结果序列 
        for(j=0;j<n;j++) 
        {
            int cnt=0;
            //找出该列中出现次数最多的字符 
            for(k=0;k<4;k++)
            {
                int num=0;
                for(i=0;i<m;i++)
                {
                    if(a[i][j]==alpha[k]) num++;
                }
                if(num>cnt)
                {
                    cnt = num;
                    tmpc = alpha[k];
                }
            }
            res[j] = tmpc;
        }
        //找差异次数
        int gap = 0;
        for(j=0;j<n;j++)
            for(i=0;i<m;i++)
                if(a[i][j]!=res[j]) gap++;
        for(j=0;j<n;j++)
            printf("%c",res[j]);
        printf("\n%d\n",gap); 
    }
    return 0;
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值