/*问题描述
人类基因组计划的第一阶段于2000年6月26日胜利结束,我国的科研工作者圆满地完成了其中的1%的测序工作。
众所周知,对于任意两个人来说,他们的染色体上的DNA序列大部分是相同的(否则就不是同一物种了),但是总会有少数碱基对不相同(否则世界上的人长得都一模一样了)。碱基的不同是由于基因的变异引起的。例如在某个人的DNA序列中,一位点上A突变成G。但每个人的DNA序列的变异位置都是不尽相同的。这样,对于大部分位点来说,很有可能是这么一种情况:大部分人在这个位点上的碱基是一致的(因为没有发生变异),少数人具有不同的碱基(因为发生了变异)。
这样就给我们一个启发:在测序的过程中,如果仅仅使用一个人的样本的话,在很多位点上测出的结果就不具有代表性;如果能够测出多个人的序列,那么就有可能“整合”出一段具有人类共性的序列出来,这样更有利于研究。
比如说,我们要测人的某一段的DNA序列,得到了4个人的样本:
AAAGGCCT
AGAGCTCT
AAGGATCT
AAACTTCT
按照如下:
1、 取出在每一个位置上出现次数最多的碱基作为整合后该位置上的碱基
2、 如果有一个位置上出现次数最多的碱基不止一种,那么在出现次数最多的碱基中,优先选择A,其次C,再次G,最后T。
按照上边的规则,整合后的序列为:
AAAGATCT
输入格式
输入数据的第一行是一个数字N(2<=N<=10),代表DNA序列的个数
接下来有N行,每行都是一个由AGCT组成的字符串,代表每个DNA序列,保证这些序列拥有相同的长度
序列的长度在2到100之间
输出格式
仅输出一个字符串,代表整合后的DNA序列
样例输入
4
AAAGGCCT
AGAGCTCT
AAGGATCT
AAACTTCT
样例输出
AAAGATCT*/
import java.util.*;
public class Main {
public static char[] ch = { 'A', 'C', 'G', 'T' };
public static int[] sum;
public static int n;
public static String[] str;
public static int[][] sum1;
public static void main(String[] args) {
Scanner sc = new Scanner(System.in);
n = sc.nextInt();
str = new String[n];
for (int i = 0; i < n; i++) {
str[i] = sc.next();
}
// 读取没一行的字符串的每一位字母
for (int i = 0; i < str[0].length(); i++) {
sum = new int[4];
for (int j = 0; j < n; j++) {
// 记录该字母出现的概率
if (str[j].substring(i, i + 1).equals("A")) {
sum[0]++;
} else if (str[j].substring(i, i + 1).equals("C")) {
sum[1]++;
} else if (str[j].substring(i, i + 1).equals("G")) {
sum[2]++;
} else if (str[j].substring(i, i + 1).equals("T")) {
sum[3]++;
}
}
int max = 0;
int index = 0;
for (int k = 0; k < 4; k++) {
// 找出出现字母的次数最多的下标值
if (max < sum[k]) {
max = sum[k];
index = k;
}
}
System.out.print(ch[index]);
}
}
}
DNA序列
最新推荐文章于 2021-08-18 11:42:21 发布