来源:
视采网站采集器
3 具体需求
本章应包括软件开发者在建立设计时需要的全部细节。这是
SRS
中篇幅最大和最重要的部分。
1.
根据本指南第
4
章所规定的准则(如可验证性、无歧义性等),对每一个需求细节作具体描述;
2.
在
SRS
的前言、项目概述、附录部分的有关讨论中,要提供对任何一个具体需求交叉引用的背景;
3.
具体需求分类的方法如下:
4.
功能需求;
5.
性能需求;
6.
设计约束;
7.
属性;
8.
外部接口需求。
本章中要注意的二点是:
1.
符合逻辑的和可读的方式组织;
2.
详细描述每个需求,使该需求应达到目标能够用指定的方法进行客观的验证。
功能描述主要描述功能的数据属性以及功能操作,界面元素不代表页面的实际样式。实际实现时,可根据界面元数定义其它页面,如列表页,查看页等。
系统提供可视化规则定义,支持多层次采集。功能包括:
1. 输入输出插件管理
2. 系统参数配置
3. 数据采集
4. 规则管理
5. 计划任务管理
系统暂时没有提供模板修饰、规则定义中的脚本引擎和对ftp、file的抓取功能。
系统暂时仅实现http抓取和面向网页抓取的规则定义界面。
3.1 输入输出插件管理
3.1.1功能说明
上载插件,查看插件,删除插件。
3.1.2界面元素
插件路径
|
文件选择控件
|
安装
|
3.1.1功能需求
用户上载输入输出插件包,安装到系统中。
用户可以删除已安装的插件包。
插件包为jar包,包的目录结构如下:
/<pack-path>/<class>
/resource/<file>
/ openwebant-plunin.xml
文件openwebant-plunin.xml为插件配置。参数如下:
<plunin type="openwebant-in" class=" com.openwebant.httpInPlunin" version="1.0">
<info>
名称:http in pack
描述:This plugin support http in
作者:openWebant
网站:http://www.java51.com
</info>
<mapping>
http://
</mapping>
</plunin>
|
当系统启动时,检查系统包路径下的所有的包,如果查找到openwebant-plunin.xml,则注册该插件。
mapping用来映射哪些目标地址由它来读取,支持正直表达式匹配。文中的http://表示它可以处理以http://打头的目标地址。
3.2 系统参数配置
3.2.1功能说明
设置系统参数。
3.2.2界面元素
任务最大数
|
.
|
线程最大数
|
.
|
线程采集间隔
|
.
|
报告刷新间隔
|
.
|
采集日记路径
|
.
|
采集编码
|
.
|
发布编码
|
.
|
…
|
.
|
保存
|
3.2.3功能需求
系统参数改变后,系统地下一次行为要参照最新的参数,当前正在运行的任务可不参照参数的改变。
具体参数将根据系统详细设计确定。
3.3 数据采集
3.3.1功能说明
通过采集规则将指定目标内容发布到数据库中。
3.3.2界面元素
采集界面:
采集规则
美女网
选择
开始
新建
| ||||||||||||||||||||||||
停止采集
| ||||||||||||||||||||||||
管道窗口
| ||||||||||||||||||||||||
线程窗口
|
规则选择窗口:
规则名
|
选择
|
美女网
|
选择
|
程序大本营
|
选择
|
新浪网
|
选择
|
网易
|
选择
|
3.3.3功能需求
用户可以选择已经存在的任务文件进行采集。用户也可以新建采集任务。采集过程中,需要显示采集的状态,如线程列表,每个线程当前采集的目标,采集的结果等。用户可以终止采集任务。
用户选择采集规则,然后点击开始后,
选择
开始
新建 按钮变灰失效,停止采集按钮有效。管道窗口报告当前采集到的数据。线程窗口显示当前系统正在运行的线程和已经结束的线程。
用户可以点击
选择
按钮,系统弹出规则列表框,用户指定一个规则。
用户点击
新建 按钮,系统进入规则定义页面。
3.4 规则管理
3.4.1功能说明
定义采集规则,采集规则包括单元区域定义、单元格定义、单元格和数据表字段的联合的定义。
3.4.2界面元素
第一层规则定义页面:
规则名称
|
.
|
目标网址
|
.
请求
|
单元区域
单元格
<
工具条
>
| |
<
页面
>
用户选择区域,然后点击工具条上的
<
单元区域
>
定义单元区域。在单元区域里选择区域,点击工具条上的
<
单元格
>
定义单元格。当单元格里包含其它元素时,系统弹出选择框,选择某一元素。
| |
<
单元区域源码
>
表示单元区域和单元格所对应的源码。用户也可以在源码区里来定义不可视的单元格。
| |
下一层
发布
|
第二层以下的规则定义页面:
<
上一层单元区域页面,不可视单元格使用单元格名称表示
>
用户选择单元格,在下面显示该页面,如果单元格是网址,则在下面显示该页面,同第一层页面。
|
单元区域
单元格
<
工具条
>
|
<
页面
>
用户选择区域,然后点击工具条上的
<
单元区域
>
定义单元区域。在单元区域里选择区域,点击工具条上的
<
单元格
>
定义单元格。当单元格里包含其它元素时,系统弹出选择框,选择某一元素。
|
<
单元区域源码
>
表示单元区域和单元格所对应的源码。用户也可以在源码区里来定义不可视的单元格。
|
下一层
发布
|
单元格发布定义页面:
数据库地址:
.
连接
| ||
数据库表:
article_content
article_user
article_mark
article_type
article_template
用户输入数据库
url
,连接数据库,系统显示数据库表。用户选择一个表,列出字段。
|
表字段:
article_title
article_body
article_autor
article_type_id
article_post_date
用户选择一个字段,选择一个单元格,点击
联合
按钮。
|
单元格列表:
├列表标题
├列表标题链接
│├文章标题
│├文章内容
│├文章作者
│└文章评论
│ ├评论标题
│ ├评论内容
│ └评论日前
└点击数
|
联合
移除
| ||
article_content.article_title
ß---
à 列表标题链接.文章标题
article_content.article_body
ß---
à 列表标题链接.文章内容
article_content.article_autor
ß---
à 列表标题链接.文章作者
| ||
保存
采集
|
3.4.3功能需求
用户输入目标网址,获取页面和源文件,在页面上选择单元区域,在单元区域里定义单元格,源码区里显示单元区域和单元格所对应的代码。点击
下一层按钮,页面显示上一层的单元格列表。用户选择一个单元格,如果单元格是一个网址则获取页面和源文件,选择单元区域和单元格。重复以上过程,直到采集深度达到要求为止。点击发布按钮,进入发布设置页面。
在页面上以深度结构显示单元格的树型列表。用户输入数据库的url,显示数据库表,用户选择一张表,显示表的字段。用户将单元格和字段关联起来。点击
保存 保存采集规则,以后可以在采集页面上选择该规则进行采集。点击
采集 按钮,系统保存采集规则,并立即采集。
3.5 计划任务管理
3.5.1功能说明
让任务在指定的时间里自动执行。
3.5.2界面元素
计划任务设置页面:
采集规则
|
美女网
选择
新建
|
启动时间
|
12-16 12:23
|
采集结束后
自动地关机
|
√
|
保存
|
3.5.3功能需求
用户点击
选择 按钮,弹出规则列表,选择一个规则,关闭列表窗口。指定启动时间,时间格式为 月-日 时:分 。如果用户选择自动关机项,系统采集结束后自动关闭计算机。
4 支持信息
支持信息是指目录表,附录和索引。以便使
SRS
易于使用。
1.
目录表和索引很重要,而且应按照可以接受的好的文件规则来编写。
2.
对一个实际的需求规格说明来说,若有必要应该编写附录。附录中可能包括:
l
输入输出格式样本,成本分析研究的描述或用户调查结果;
l
有助于理解
SRS
的背景信息;
l
软件所解决问题的描述;
l
用户历史、背景、经历和操作特点;
l
交叉访问表。按先后次序进行编排,使一些不完全的软件需求得以完善(参见
4.3.2
条和
4.3.3
条);
l
特殊的装配指令用于编码和媒体,以满足安全、输出、初始装入或其他要求。
3. 当包括附录时,SRS必须明确地说明附录是不是需求要考虑的部分。
4.3
资源
|
说明
|
项目官方网站,发布项目文档,提供系统下载。
| |
QQ:107175884
|
|
Mail:hotheartboy@gmail.com
|
|