软工实践（四）——热词统计

最新推荐文章于 2021-08-29 13:39:08 发布

weixin_30883311

最新推荐文章于 2021-08-29 13:39:08 发布

阅读量206

点赞数

文章标签： java python 爬虫

原文链接：http://www.cnblogs.com/hengyumo/p/10539519.html

版权

课程：软工实践（链接）

作业：结对第二次—文献摘要热词统计及进阶需求（链接）

Github基础需求项目地址（链接）

Github进阶需求项目地址（链接）

结对学号：221600219 221600212

作业目标：

一、基本需求：实现一个能够对文本文件中的单词的词频进行统计的控制台程序。

二、进阶需求：在基本需求实现的基础上，编码实现顶会热词统计器。

一、Github签入记录

基础需求

进阶需求

自动测试

爬虫数据分析

二、基础需求

项目结构

├── PairProject1-Java  
│   └── 221600219&221600212  
│       └── src  
│           ├── Main.java  
│           └── Lib.java

类图

核心代码

三、进阶需求

项目结构

├── PairProject2-Java  
│   └── 221600219&221600212  
│       └── cvpr
│           ├── Main.java  
│           └── result.txt  
│       └── src  
│           ├── Main.java  
│           └── Lib.java

类图

核心代码

使用Junit 进行了单元测试：

单元测试的覆盖率：

使用Jprofiler进行性能测试

本次性能测试的数据都是爬虫爬取到的result.txt数据，一共502篇论文

优化前各项的耗时情况

分析:

我们发现早期的性能瓶颈是因为对文件进行了多次读取，并在每次读取都进行了排序，所以导致Lib.sortWordMap时间占用长。

对于这样的耗时情况，是不能接受的:

我们推翻的之前的方法，通过商讨，摒弃的之前较慢的字符串处理，而是采用了更快的二进制字节处理，同时原本的多次读取文件也改为了一次读取，多次使用。
main调用只读取一次文件：

收集单词使用二进制判断：

优化后各项的耗时情况

从原本的87s左右降低到了仅有3s，大幅度的提升了程序的运行速度：

爬虫

爬虫部分使用java编写，结合了Jsoup，先匹配CVPR网站上的ptitle类，然后查找类中的标签，获取论文链接。

python编写的自动测试工具

为了方便对基础代码进行自动测试，我使用了python的subprocess库进行对Java代码的自动编译和执行，用unitest来对Java程序的运行结果进行测试，用HTML_Runner_Chart库来对测试结果进行呈现。

代码已经开源至Github仓库：https://github.com/numb-men/wordCountAutoTest

代码目录和核心代码

使用Python自动测试结果（动图加载可能较慢）

四、附加题

我们使用Python的pyecharts、subprocess库，对Java的爬虫代码和WordCount进行了调用，对词组词数分别为1-5的情况进行了图表数据呈现。
github仓库地址：https://github.com/numb-men/cvpr2018DataAnalysis

当词组单词数为1时，发现最经常出现的词是learning，是啊，这是个learning的时代，一方面是机器学习、深度学习的火热，一方面是在这个时代IT不保持学习就会落后..

当词组数为2时，neural networks（神经网络）、convolutional neural（卷积神经）都出现在了热词里...

词组数为3时，前二都是卷积神经网络

我们对词组为2时进行了词云图分析

五、PSP表格

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划	30	10
Estimate	估计这个任务需要多少时间	30	10
Development	开发	1400	2290
Analysis	需求分析 (包括学习新技术)	100	100
Design Spec	生成设计文档	60	30
Design Review	设计复审	30	50
Coding Standard	代码规范 (为目前的开发制定合适的规范)	20	20
Design	具体设计	180	250
Coding	具体编码	800	1000
Code Review	代码复审	110	110
Test	测试（自我测试，修改代码，提交修改）	100	150
Reporting	报告	120	110
Test Repor	测试报告	30	30
Size Measurement	计算工作量	30	30
Postmortem & Process Improvement Plan	事后总结, 并提出过程改进计划	60	50
All	合计	1550	2410

六、遇到的困难与解决

使用字符串来进行单词的频率计算，效率低下。后面使用二进制字节来进行了所有的检测流程，效率提高了，但是编码的难度也提高了，好在付出了更多的时间之后还是解决了这个问题。
由于平时没有使用IDE，编写代码后都使用命令行运行，导致对IDEA并不熟悉，花了很多时间来进行程序的性能分析和单元测试覆盖率分析。

七、总结

这次作业，小组遇到了不少的困难，但也收获了不少新的技能。这次在对需求的分析上，我们遇到了很多的障碍，其实很多需求在作业中已经给明了清晰的定义，只是我们在阅读需求文档的经验不足，导致不能够很敏锐的挖掘出这些潜在的信息。在这次作业里，我觉得我和我的队友都得到了很好的一次锻炼，也充分意识到了，在对需求没有一个清晰的理解下就动手编码，只会让作业的完成事半功倍。在以后的工作岗位上，我们一定会遇到更多的更苛刻的需求，所以很开心可以在这次作业中锻炼自己的这方面的阅读能力。
除了掌握基本的算法知识之外，掌握一些额外的技能也是很重要的，如使用python来进行数据的分析和处理，然后图表化呈现、使用Jprofiler进行Java的性能分析，这些技能能更好的辅助我们进行代码的编写。

八、对队友的评价

221600212 :

感觉这次能和长平同学结对是一次很愉快的合作。在整个作业的分析，设计，开发，调试过程中，长平一直很认真的在对待，一起沟通问题解决问题。他较为丰富的开发经验以及对Bug的一丝不苟，保障了作业的高质量完成同时也少走许多歪路。真的是一位很可靠的搭档！

221600219:

和剑威结队的过程中，也是一个互相学习的过程，我们在电脑前一起讨论，一起找bug，有时候我也惊叹他的想法的独到之处，他常常指出我没想到的地方，而且非常认真负责的完成了分工，虽然他在编程上还有待提高，但他是一位能让人感到合作愉快的队友。希望之后和他的配合会越来越默契。

转载于:https://www.cnblogs.com/hengyumo/p/10539519.html

weixin_30883311

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
软工实践（四）——热词统计

课程：软工实践（链接）作业：结对第二次—文献摘要热词统计及进阶需求（链接）Github基础需求项目地址（链接）Github进阶需求项目地址（链接）结对学号：221600219 221600212作业目标：一、基本需求：实现一个能够对文本文件中的单词的词频进行统计的控制台程序。二、进阶需求：在基本需求实现的基础上，编码实现顶会热词统计器。一、Github签入记录基础需求进阶需...
复制链接

扫一扫