题目描述
牛牛又从生物科研工作者那里获得一个任务,这次牛牛需要帮助科研工作者从DNA序列s中找出最短没有出现在DNA序列s中的DNA片段的长度。
例如:s = AGGTCTA
序列中包含了所有长度为1的('A','C','G','T')片段,但是长度为2的没有全部包含,例如序列中不包含"AA",所以输出2。
输入描述:
输入包括一个字符串s,字符串长度length(1 ≤ length ≤ 2000),其中只包含'A','C','G','T'这四种字符。
输出描述:
输出一个正整数,即最短没有出现在DNA序列s中的DNA片段的长度。
示例1
输入
AGGTCTA
输出
2
解题思路:
不需要讨论实际的序列,只要比较序列的个数就好了。i从长度为1到长度为n分别进行讨论,将长度为i的子串依次加入到set容器中去,set容器会自动除去重复的元素,这样set容器的大小size()就表示长度为i的种类数量了。长度为i的序列总共有4的i次方个(排列组合:每个位置都有四种选择),然后将set容器的size()与4的i次方进行比较,如果小于4的i次方,那肯定存在不包含的
序列。
import java.util.*;
public class Main{
public static void main(String[] args){
Scanner sc = new Scanner(System.in);
String input = sc.nextLine();
int n = input.length();
//i用来表示子串的长度
for(int i=1;i<=n;i++){
HashSet<String> set= new HashSet<String>();
//j用来遍历,将长度为i的子串依次全部加入set中去重
for(int j=0;j<=n-i;j++)
set.add(input.substring(j,j+i));
//如果长度为i所有子串的个数小于4^i,说明没有全部包含
if(set.size() < Math.pow(4,i)){
System.out.println(i);
break;
}
}
}
}