201671010423 词频统计软件项目报告

需求分析

1.程序可读入任意英文文本文件,该文件中英文词数大于等于1个。
2.程序需要很壮健,能读取容纳英文原版《哈利波特》10万词以上的文章。

基本功能

1.指定单词词频统计功能:用户可输入从该文本中想要查找词频的一个或任意多个英文单词,运行程序的统计功能可显示对应单词在文本中出现的次数和柱状图。
2.高频词统计功能:用户从键盘输入高频词输出的个数k,运行程序统计功能,可按文本中词频数降序显示前k个单词的词频及单词。
3.统计该文本所有单词数量及词频数,并能将单词及词频数按字典顺序输出到文件result.txt。

环境需求

1.测试机环境:Windows环境
2.JDK版本:jdk8u161
3.JRE版本:jre8u161

功能设计

1.新建文本文件data.txt
2.统计各个单词出现的次数
3.如果次数相同,安装单词的字典顺序排序
4.输出单词个数
5.输入要查询的单词,显示它出现的次数
6.输出结果并将其存储到result.txt文件中

设计实现

    通过Map集合,以键值对的方式去存储单词和出现的次数,定义一个文件字节读取流,去读取磁盘中的文件,创建了一个BufferReader的缓冲流,将字符流对象传进去,提高读取的效率,创建一个split数组,用来分割字符串,通过调用map的key值获取value,进行单词统计,用TreeMap实现Comparator接口,对Map集合进行排序

测试运行

  • 程序的运行截图如下图:
    • 单词查找:
      1614549-20190318221049375-202297938.png
      1614549-20190318221105798-1552528345.png
    • 单词个数统计:
      1614549-20190318221141629-1840662456.png
    • 词频统计:
      1614549-20190318221249644-39511178.png
    • 词频输出结果:
      1614549-20190318221324973-2008203307.png

代码片段

  • 词频统计
     Map<String, Integer> wordsCount = new TreeMap<String,Integer>();  //存储单词计数信息,key值为单词,value为单词数       
            //单词的词频统计  
            for (String li : lists) {  
                if(wordsCount.get(li) != null){  
                    wordsCount.put(li,wordsCount.get(li) + 1);  
                }else{  
                    wordsCount.put(li,1);  
  • 词频数降序显示
      ArrayList<Map.Entry<String,Integer>> list = new ArrayList<Map.Entry<String,Integer>>(oldmap.entrySet());  
              
            Collections.sort(list,new Comparator<Map.Entry<String,Integer>>(){  
                @Override  
                public int compare(Entry<String, Integer> o1, Entry<String, Integer> o2) {  
                    return o2.getValue() - o1.getValue();  //降序  
                }  
            });  
  • 词频结果输出到指定文件
    try{
        FileWriter fr=new FileWriter("D:\\results.txt");
        BufferedWriter txt=new BufferedWriter(fr);
        for (Map.Entry<String,Integer> entry: list) {
            txt.write(entry.getKey()+":"+entry.getValue());
            txt.newLine();
        }
            txt.flush();
            txt.close();
            System.out.println("词频统计结果已输出到result.txt文件!");
        }
        catch(IOException e) {
            e.printStackTrace();

展示PSP

任务内容计划共完成需要的时间(min)实际完成需要的时间(min)
计划109
估计这个任务需要多少时间,并规划大致工作步骤1520
开发200230
需求分析 (包括学习新技术)1010
生成设计文档1015
设计复审 (和同事审核设计文档)1012
代码规范 (为目前的开发制定合适的规范)109
具体设计4045
具体编码120130
代码复审1512
测试(自我测试,修改代码,提交修改)3040
报告1515
测试报告56
计算工作量53
事后总结 ,并提出过程改进计划64
    具体设计和具体编码环节耗时最多,测试(自我测试,修改代码,提交修改)环节估计和实践相差巨大。具体原因可能要归结于由于Java编程功底很弱,对于Java语法结构、类的定义、函数的构造等知识方面都严重匮乏导致在代码编码上浪费了很多时间。

本次作业项目github地址

转载于:https://www.cnblogs.com/MALIS/p/10527900.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值