n-gram串频统计(统计字符串字串出现次数最多的)(计蒜客)

1.题目原文

在文本分析中常用到n-gram 串频统计方法,即,统计相邻的 n 个单元(如单词、汉字、或者字符)在整个文本中出现的频率。假设有一个字符串,请以字符为单位,按n-gram 方法统计每个长度为 n 的子串出现的频度,并输出最高频度以及频度最高的子串。所给的字符串只包含大小写字母,长度不多于 500 个字符,且 1<n<5。

如果有多个子串频度最高,则根据其在序列中第一次出现的次序依次输出,每行输出一个,如果最高频度不大于 1,则输出 "NO"

输入格式

第一行为 n;

第二行为字符串。

输出格式

输出最高频度以及频度最高的所有子串。若最高频度不大于 1,只输出一行"NO"

提示

样例中,所有的 3-gram 是:abcbcdcdedefefafababcbcd。最后面的cd不足以形成3-gram,则不考虑。这样,abcbcd都出现了 2 次,其余的只出现了 1 次。

输出时每行末尾的多余空格,不影响答案正确性

样例输入

3
abcdefabcd

样例输出

2
abc
bcd

2.题目分析以及所用方法

2.1题目分析       

        我用的是字符串组数和整型数组来实现的,字符串数组用来记录每个字串,而整型数组用来记录每个子串出现的频率,遍历整型数组找出最大值,其下标对应的字符串数组即是出现最多的,如果有多个就使用字符串相加,最后遍历字符串数组输出,输出时需要判断如果max==1(即所有的字符频率都为1)则输出NO否则正常输出最大值max,以及频率最高的字符串子串。在代码中都有注释。

2.2所用方法

str.split() 用于使用特定字符分离字符串,返回值是一个字符串数组

str.substring(begin,end)字符串拼接从begin开始,到end结束,当没有end时会从begin开始一直到结尾。

str.equals(str1) str与str1进行比较如果相同则返回true否则返回false。

增强for循环:解释如下:

Java中的增强for循环的实现原理与坑_qiang_zi_的专栏-CSDN博客_java增强for循环原理

3.题解代码(java)

import java.util.Scanner;
public class Main {
    public static void main(String[] args) {
        Scanner scanner=new Scanner(System.in);
        int n = scanner.nextInt();
        String s = scanner.next();
        String str = "";
        int max = 0, i=0;
        while (true) {
            if(i+n>s.length()) break;
            str += s.substring(i,i+n)+" ";//使用字符串拼接,将字符子串用空格隔开
            i++;
        }
        String result = "";
        String [] str1 = str.split(" ");//使用split方法将字符串分为若干个字符串并保存到字符数组中
        int [] sum = new int[str1.length];//整型数组用来保存频率出现次数。
        for (int j = 0; j < str1.length; j++) {
            for (int j2 = j; j2 < str1.length; j2++) {
                    if(str1[j].equals(str1[j2]))
                        sum[j]++; //如果相同频率加1
                }
            }
        for (int j = 0; j < sum.length; j++) {//找出最大频率
            if(sum[j]>max)
                max = sum[j];
        }
        for (int j = 0; j < sum.length; j++) {//找出最大频率下的字符子串
            if(sum[j]==max)
                result+=str1[j]+" ";
        }
        if (max==1) {
            System.out.println("NO");
        }
        else{
            System.out.println(max);
            String [] res = result.split(" "); //split分离
            for (String string : res) {        //增强for循环输出
                System.out.println(string);
            }
        }
    }
}

有用点个赞吧,有什么疑问可以下方评论,我看到了都会回答。

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值