1.题目原文
在文本分析中常用到n-gram 串频统计方法,即,统计相邻的 n 个单元(如单词、汉字、或者字符)在整个文本中出现的频率。假设有一个字符串,请以字符为单位,按n-gram 方法统计每个长度为 n 的子串出现的频度,并输出最高频度以及频度最高的子串。所给的字符串只包含大小写字母,长度不多于 500 个字符,且 1<n<5。
如果有多个子串频度最高,则根据其在序列中第一次出现的次序依次输出,每行输出一个,如果最高频度不大于 1,则输出 "NO"
。
输入格式
第一行为 n;
第二行为字符串。
输出格式
输出最高频度以及频度最高的所有子串。若最高频度不大于 1,只输出一行"NO"
。
提示
样例中,所有的 3-gram 是:abc
,bcd
,cde
,def
,efa
,fab
,abc
,bcd
。最后面的cd
不足以形成3-gram,则不考虑。这样,abc
和bcd
都出现了 2 次,其余的只出现了 1 次。
输出时每行末尾的多余空格,不影响答案正确性
样例输入
3 abcdefabcd
样例输出
2 abc bcd
2.题目分析以及所用方法
2.1题目分析
我用的是字符串组数和整型数组来实现的,字符串数组用来记录每个字串,而整型数组用来记录每个子串出现的频率,遍历整型数组找出最大值,其下标对应的字符串数组即是出现最多的,如果有多个就使用字符串相加,最后遍历字符串数组输出,输出时需要判断如果max==1(即所有的字符频率都为1)则输出NO否则正常输出最大值max,以及频率最高的字符串子串。在代码中都有注释。
2.2所用方法
str.split() 用于使用特定字符分离字符串,返回值是一个字符串数组
str.substring(begin,end)字符串拼接从begin开始,到end结束,当没有end时会从begin开始一直到结尾。
str.equals(str1) str与str1进行比较如果相同则返回true否则返回false。
增强for循环:解释如下:
Java中的增强for循环的实现原理与坑_qiang_zi_的专栏-CSDN博客_java增强for循环原理
3.题解代码(java)
import java.util.Scanner;
public class Main {
public static void main(String[] args) {
Scanner scanner=new Scanner(System.in);
int n = scanner.nextInt();
String s = scanner.next();
String str = "";
int max = 0, i=0;
while (true) {
if(i+n>s.length()) break;
str += s.substring(i,i+n)+" ";//使用字符串拼接,将字符子串用空格隔开
i++;
}
String result = "";
String [] str1 = str.split(" ");//使用split方法将字符串分为若干个字符串并保存到字符数组中
int [] sum = new int[str1.length];//整型数组用来保存频率出现次数。
for (int j = 0; j < str1.length; j++) {
for (int j2 = j; j2 < str1.length; j2++) {
if(str1[j].equals(str1[j2]))
sum[j]++; //如果相同频率加1
}
}
for (int j = 0; j < sum.length; j++) {//找出最大频率
if(sum[j]>max)
max = sum[j];
}
for (int j = 0; j < sum.length; j++) {//找出最大频率下的字符子串
if(sum[j]==max)
result+=str1[j]+" ";
}
if (max==1) {
System.out.println("NO");
}
else{
System.out.println(max);
String [] res = result.split(" "); //split分离
for (String string : res) { //增强for循环输出
System.out.println(string);
}
}
}
}
有用点个赞吧,有什么疑问可以下方评论,我看到了都会回答。