【问题描述】
一个DNA序列由A/C/G/T四个字母的排列组合组成。G和C的比例(定义为GC-Ratio)是序列中G和C两个字母的总的出现次数除以总的字母数目(也就是序列长度)。在基因工程中,这个比例非常重要。因为高的GC-Ratio可能是基因的起始点。
给定一个很长的DNA序列,以及要求的最小子序列长度,研究人员经常会需要在其中找出GC-Ratio最高的子序列。
【输入形式】输入一个string型基因序列,和int型子串的长度
【输出形式】找出GC比例最高的子串,如果有多个输出第一个的子串
【样例输入】AACTGTGCACGACCTGA 5
【样例输出】GCACG
思路:
这里就是很暴力的一种方法,计算每个字串的GC比例。然后把它存在数组ratio里面。这里考虑到可能会有除不尽以及小数比对,所以将ratio数组定义为双精度浮点型数组。如何计算子字符串个数:父字符串长度-子字符串长度+1(算法课get到的)
这里利用了一个超好用的方法:substring(初始位置,结束位置),截取字符串从初值位置到结束位置,但是不包括结束位置的字符。这简直就是方便又好用啊!
话不多说,看代码:
import java.util.Scanner;
public class DNAxulie {
public static void main(String[] args) {
// TODO Auto-generated method stub
Scanner in = new Scanner(System.in);
String Dstring;
String Childstring;
int n=0;
int CGnum=0;
double max=0;
if(in.hasNext()) {
Dstring = in.next();
n = in.nextInt();
in.close();
int childnum=Dstring.length()-n+1;
double[] ratio = new double[childnum];
for(int i=0;i<childnum;i++)
{
Childstring = Dstring.substring(i, i+n);
CGnum=0;
for(int j=0;j<Childstring.length();j++)
{
if(Childstring.charAt(j)=='G'||Childstring.charAt(j)=='C')
{
CGnum++;
}
}
ratio[i]=(CGnum*1.0)/Dstring.length();
if(ratio[i]>max)
{
max=ratio[i];
}
}
for(int i=0;i<childnum;i++)
{
if(ratio[i]==max)
{
System.out.println(Dstring.substring(i,i+n));
break;
}
}
}
}
}