n-gram串频统计(统计字符串字串出现次数最多的）（计蒜客）

最新推荐文章于 2022-06-16 17:39:40 发布

听过，不曾见过

最新推荐文章于 2022-06-16 17:39:40 发布

阅读量831

点赞数 4

分类专栏：题解文章标签：蓝桥杯算法 eclipse java

本文链接：https://blog.csdn.net/dvxzvsxbsx/article/details/122307409

版权

题解专栏收录该内容

18 篇文章 0 订阅

订阅专栏

1.题目原文

在文本分析中常用到n-gram 串频统计方法，即，统计相邻的 n 个单元（如单词、汉字、或者字符）在整个文本中出现的频率。假设有一个字符串，请以字符为单位，按n-gram 方法统计每个长度为 n 的子串出现的频度，并输出最高频度以及频度最高的子串。所给的字符串只包含大小写字母，长度不多于 500 个字符，且 1<n<5。

如果有多个子串频度最高，则根据其在序列中第一次出现的次序依次输出，每行输出一个，如果最高频度不大于 1，则输出 "NO"。

输入格式

第一行为 n；

第二行为字符串。

输出格式

输出最高频度以及频度最高的所有子串。若最高频度不大于 1，只输出一行"NO"。

提示

样例中，所有的 3-gram 是：abc，bcd，cde，def，efa，fab，abc，bcd。最后面的cd不足以形成3-gram，则不考虑。这样，abc和bcd都出现了 2 次，其余的只出现了 1 次。

输出时每行末尾的多余空格，不影响答案正确性

样例输入

3
abcdefabcd

样例输出

2
abc
bcd

2.题目分析以及所用方法

2.1题目分析

我用的是字符串组数和整型数组来实现的，字符串数组用来记录每个字串，而整型数组用来记录每个子串出现的频率，遍历整型数组找出最大值，其下标对应的字符串数组即是出现最多的，如果有多个就使用字符串相加，最后遍历字符串数组输出，输出时需要判断如果max==1（即所有的字符频率都为1）则输出NO否则正常输出最大值max，以及频率最高的字符串子串。在代码中都有注释。

2.2所用方法

str.split() 用于使用特定字符分离字符串，返回值是一个字符串数组

str.substring(begin，end)字符串拼接从begin开始，到end结束，当没有end时会从begin开始一直到结尾。

str.equals(str1) str与str1进行比较如果相同则返回true否则返回false。

增强for循环：解释如下：

Java中的增强for循环的实现原理与坑_qiang_zi_的专栏-CSDN博客_java增强for循环原理

3.题解代码（java）

import java.util.Scanner;
public class Main {
   public static void main(String[] args) {
       Scanner scanner=new Scanner(System.in);
       int n = scanner.nextInt();
       String s = scanner.next();
       String str = "";
       int max = 0, i=0;
       while (true) {
           if(i+n>s.length()) break;
           str += s.substring(i,i+n)+" ";//使用字符串拼接，将字符子串用空格隔开
           i++;
       }
       String result = "";
       String [] str1 = str.split(" ");//使用split方法将字符串分为若干个字符串并保存到字符数组中
       int [] sum = new int[str1.length];//整型数组用来保存频率出现次数。
       for (int j = 0; j < str1.length; j++) {
           for (int j2 = j; j2 < str1.length; j2++) {
                   if(str1[j].equals(str1[j2]))
                       sum[j]++; //如果相同频率加1
               }
           }
       for (int j = 0; j < sum.length; j++) {//找出最大频率
           if(sum[j]>max)
               max = sum[j];
       }
       for (int j = 0; j < sum.length; j++) {//找出最大频率下的字符子串
           if(sum[j]==max)
               result+=str1[j]+" ";
       }
       if (max==1) {
           System.out.println("NO");
       }
       else{
           System.out.println(max);
           String [] res = result.split(" "); //split分离
           for (String string : res) {        //增强for循环输出
               System.out.println(string);
           }
       }
   }
}