221900118个人实战

最新推荐文章于 2024-09-21 00:11:16 发布

Halo Simpson

最新推荐文章于 2024-09-21 00:11:16 发布

阅读量270

点赞数

本文链接：https://blog.csdn.net/qq_51943489/article/details/123288601

版权

程序人生

作业基本信息

这个作业属于哪个课程	软件工程实践2002年春-F班
这个作业要求在哪里	作业要求
这个作业的目标	1. 完成课程前期准备 2. 熟悉Java爬虫和命令行控制文件操作 3. 阅读《构建之法》 4. 学习单元测试
其他参考文献	《构建之法》

1.Gitcode项目地址

gitcode项目地址

2.PSP表格

PSP	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划
• Estimate	• 估计这个任务需要多少时间	20	20
Development	• 开发
• Analysis	• 需求分析 (包括学习新技术)	60	180
• Design Spec	• 生成设计文档	30	30
• Design Review	• 设计复审	10	12
• Coding Standard	• 代码规范 (为目前的开发制定合适的规范)	20	20
• Design	• 具体设计	20	20
• Coding	• 具体编码	360	480
• Code Review	• 代码复审	10	10
• Test	• 测试（自我测试，修改代码，提交修改	120	240
Reporting	报告
• Test Repor	• 测试报告	100	120
• Size Measurement	• 计算工作量	10	10
• Postmortem & Process Improvement Plan	• 事后总结, 并提出过程改进计划	10	10
	合计	750	1152

3.解题思路描述

1. 爬取数据

数据文件一定就在html代码里面，关键就在于获取html然后解析它。发现一个问题，奥运会的网站是动态页面，直接获取的html当中实际上并没有直接的数据，但是打开网页按F12仍然能找到对应的数据标签，这怎么办呢？我发现了一个非常好用的包，叫做htmlunit，利用它就可以把动态的html解析成静态，这时候用html解析器就能成功得到需要的标签了

具体来说，奖牌榜的数据抓获比较简单，因为网站内容只有一页，而每日赛程的URL每一天都不一样，容易发现，当按日期点击赛程查询，URL变成了如http://2022.cctv.com/schedule/date/index.shtml?date=20220219这样的格式，只需要在？date=后加上相应日期，就是每一天的赛程页面的URL了，通过此URL，解析成静态网页，最后同样可以提取到对应数据的标签

2. 数据处理

最方便的当然是json了，爬取的数据先存到对象数组，然后用json解析器给序列化成json数组，存放到data文件夹中。而执行主要操作时，从data文件夹读入json字符串，反序列化到对象数组，操作十分方便。

需要注意，爬取的数据的比赛名，直接显示了比分，而需求是显示成XXvsXX的格式，所以还需要稍加改动name属性

3.核心逻辑部分

逐行处理指令，节省时间。对每一行指令，先去除首位空格，再用空格分隔字符串成字符串数组，这样可以允许用户输入多个空格。对于每一个这样的字符串数组，判断大小是不是1，如果是则只有当此字符串为”total“时才是合法指令；如果是2，则为第一个字符串”schedule“才是合法指令，并且第二个要是规范的日期格式；如果是3，也是非法指令

题目要求最后不能有换行符，所以每条指令输出到文件最后都删一个换行符，注意文件不空时，先补一个换行符在StringBuffer的最前面

4.接口设计和实现过程

Lib:读取并处理操作类
OlympicSearch：主类
Spider：获取数据类
Medal：国家奖牌信息类
Schedule：每日赛程类

Lib作为封装的接口，它是一个静态类，可以被测试类直接调用它有三个方法，分别用于处理赛程、处理奖牌榜、处理总的输出到output文件的操作。爬虫的具体代码实现分别在Medal类和Schedule类中，而Spider类的main方法仅仅调用Medal.getMedalListJson()和Schedule.getSchedual()。实际上，除了属性以外，Medal类和Schedule类只有各自的一个爬取数据的方法。