HJ63 DNA 序列
描述
一个 DNA 序列由 A/C/G/T 四个字母的排列组合组成。
G 和 C 的比例(定义为 GC-Ratio )是序列中 G 和 C 两个字母的总的出现次数除以总的字母数目(也就是序列长度)。在基因工程中,这个比例非常重要。因为高的 GC-Ratio 可能是基因的起始点。
给定一个很长的 DNA 序列,以及限定的子串长度 N ,请帮助研究人员在给出的 DNA 序列中从左往右找出 GC-Ratio 最高且长度为 N 的第一个子串。
DNA 序列为 ACGT 的子串有: ACG , CG , CGT 等等,但是没有 AGT , CT 等等
数据范围:字符串长度满足 1≤n≤1000 1≤n≤1000 ,输入的字符串只包含 A/C/G/T 字母
输入描述:
输入一个 string 型基因序列,和 int 型子串的长度
输出描述:
找出 GC 比例最高的子串,如果有多个则输出第一个的子串
示例 1
输入:
ACGT
2
输出:
CG
说明:
ACGT 长度为 2 的子串有 AC,CG,GT3 个,其中 AC 和 GT2 个的 GC-Ratio 都为 0.5,CG 为 1,故输出 CG
示例 2
输入:
AACTGTGCACGACCTGA
5
输出:
GCACG
说明:
虽然 CGACC 的 GC-Ratio 也是最高,但它是从左往右找到的 GC-Ratio 最高的第 2 个子串,所以只能输出 GCACG。
题解
import java.util.Scanner;
import java.util.LinkedHashSet;
// 注意类名必须为 Main, 不要有任何 package xxx 信息
public class Main {
public static void main(String[] args) {
Scanner in = new Scanner(System.in);
while (in.hasNext()) { // 注意 while 处理多个 case
// 输入一个string型基因序列
// int型子串的长度
String dna = in.next();
int n = in.nextInt();
// 找出GC比例最高的子串,如果有多个则输出第一个的子串
// G 和 C 的比例(定义为 GC-Ratio )是序列中 G 和 C 两个字母的总的出现次数除以总的字母数目(也就是序列长度)。
// 比例 = (G的数目+C的数目)/总的字母数目 ==》 GC的数目
// 有序 去重
LinkedHashSet<String> strs = new LinkedHashSet<>();
// 截取长度为 n 的子串
for (int i = 0; i < dna.length() - n + 1; i++) {
String str = dna.substring(i, i + n);
strs.add(str);
}
// GC数目代表 ratio 比例的大小
int max = 0;
String res = "";
for (String s : strs) {
int count = 0;
// 首先求G和C的个数和
count = s.replaceAll("[^CG]", "").length();
if (max < count) {
max = count ;
res = s;
if (count == 1) {
break;
}
}
}
System.out.println(res);
}
}
}