视采网站采集器功能设计

3 具体需求
本章应包括软件开发者在建立设计时需要的全部细节。这是 SRS 中篇幅最大和最重要的部分。
1.         根据本指南第 4 章所规定的准则(如可验证性、无歧义性等),对每一个需求细节作具体描述;
2.         SRS 的前言、项目概述、附录部分的有关讨论中,要提供对任何一个具体需求交叉引用的背景;
3.         具体需求分类的方法如下:
4.         功能需求;
5.         性能需求;
6.         设计约束;
7.         属性;
8.         外部接口需求。
 
本章中要注意的二点是:
1.         符合逻辑的和可读的方式组织;
2.         详细描述每个需求,使该需求应达到目标能够用指定的方法进行客观的验证。
 
功能描述主要描述功能的数据属性以及功能操作,界面元素不代表页面的实际样式。实际实现时,可根据界面元数定义其它页面,如列表页,查看页等。
 
系统提供可视化规则定义,支持多层次采集。功能包括:
1.         输入输出插件管理
2.         系统参数配置
3.         数据采集
4.         规则管理
5.         计划任务管理
 
系统暂时没有提供模板修饰、规则定义中的脚本引擎和对ftp、file的抓取功能。
 
系统暂时仅实现http抓取和面向网页抓取的规则定义界面。
3.1 输入输出插件管理
3.1.1功能说明
上载插件,查看插件,删除插件。
3.1.2界面元素
插件路径
文件选择控件                            
  安装  
3.1.1功能需求
用户上载输入输出插件包,安装到系统中。
用户可以删除已安装的插件包。
 
插件包为jar包,包的目录结构如下:
/<pack-path>/<class>
/resource/<file>
/ openwebant-plunin.xml
 
文件openwebant-plunin.xml为插件配置。参数如下:
<plunin type="openwebant-in" class=" com.openwebant.httpInPlunin" version="1.0">
 <info>
     名称:http in pack
     描述:This plugin support http in
     作者:openWebant
     网站:http://www.java51.com
 </info>
 <mapping>
     http://
 </mapping>
</plunin>
 
当系统启动时,检查系统包路径下的所有的包,如果查找到openwebant-plunin.xml,则注册该插件。
mapping用来映射哪些目标地址由它来读取,支持正直表达式匹配。文中的http://表示它可以处理以http://打头的目标地址。
 
3.2 系统参数配置
3.2.1功能说明
设置系统参数。
3.2.2界面元素
任务最大数
.                        
线程最大数
.                        
线程采集间隔
.                        
报告刷新间隔
.                        
采集日记路径
.                        
采集编码
.                        
发布编码
.                        
.                        
  保存
 
3.2.3功能需求
系统参数改变后,系统地下一次行为要参照最新的参数,当前正在运行的任务可不参照参数的改变。
 
具体参数将根据系统详细设计确定。
3.3 数据采集
3.3.1功能说明
通过采集规则将指定目标内容发布到数据库中。
3.3.2界面元素
采集界面:
采集规则 美女网                                      选择        开始      新建  
        停止采集         
管道窗口
管道
输出数据
url=titl[0]
百度裁员   官方回应 律师称违规   裁员录音曝光
url=content[1]
大峡:一个“Spring轮子”引发的血案1 2 3 4
编辑空间:印度软件外包发展简记 外包频道
学习委托:函数指针的改头换面 实现机制
线程窗口
线程
采集目标
采集结果数
开始时间
结束时间
耗时
Titl[1]
http://www.csdn.net
100
12:00:00
12:00:20
20
Content[0]
http://www.csdn.net
2
12:00:01
12:00:10
9
Content[2]
http://www.blog.com
200
12:00:01
进行中
2
 
 
规则选择窗口:
规则名
选择
美女网
    选择
程序大本营
    选择
新浪网
    选择
网易
    选择
 
3.3.3功能需求
用户可以选择已经存在的任务文件进行采集。用户也可以新建采集任务。采集过程中,需要显示采集的状态,如线程列表,每个线程当前采集的目标,采集的结果等。用户可以终止采集任务。
 
用户选择采集规则,然后点击开始后,    选择        开始     新建 按钮变灰失效,停止采集按钮有效。管道窗口报告当前采集到的数据。线程窗口显示当前系统正在运行的线程和已经结束的线程。
 
用户可以点击    选择   按钮,系统弹出规则列表框,用户指定一个规则。
 
用户点击   新建 按钮,系统进入规则定义页面。
3.4 规则管理
3.4.1功能说明
定义采集规则,采集规则包括单元区域定义、单元格定义、单元格和数据表字段的联合的定义。
3.4.2界面元素
第一层规则定义页面:
规则名称
.                                  
目标网址
.                                                 请求
单元区域   单元格   < 工具条 >
< 页面 >
用户选择区域,然后点击工具条上的 < 单元区域 > 定义单元区域。在单元区域里选择区域,点击工具条上的 < 单元格 > 定义单元格。当单元格里包含其它元素时,系统弹出选择框,选择某一元素。
< 单元区域源码 >
表示单元区域和单元格所对应的源码。用户也可以在源码区里来定义不可视的单元格。
  下一层     发布
 
第二层以下的规则定义页面:
< 上一层单元区域页面,不可视单元格使用单元格名称表示 >
用户选择单元格,在下面显示该页面,如果单元格是网址,则在下面显示该页面,同第一层页面。
单元区域   单元格   < 工具条 >
< 页面 >
用户选择区域,然后点击工具条上的 < 单元区域 > 定义单元区域。在单元区域里选择区域,点击工具条上的 < 单元格 > 定义单元格。当单元格里包含其它元素时,系统弹出选择框,选择某一元素。
< 单元区域源码 >
表示单元区域和单元格所对应的源码。用户也可以在源码区里来定义不可视的单元格。
  下一层     发布
 
单元格发布定义页面:
数据库地址: .                                                 连接
数据库表:
article_content
article_user
article_mark
article_type
article_template
 
用户输入数据库 url ,连接数据库,系统显示数据库表。用户选择一个表,列出字段。
 
表字段:
article_title
article_body
article_autor
article_type_id
article_post_date
 
用户选择一个字段,选择一个单元格,点击 联合 按钮。
 
单元格列表:
├列表标题
├列表标题链接
│├文章标题
│├文章内容
│├文章作者
│└文章评论
│ ├评论标题
│ ├评论内容
│ └评论日前
└点击数
 
 
联合       移除
article_content.article_title   ß--- à 列表标题链接.文章标题
article_content.article_body  ß--- à 列表标题链接.文章内容
article_content.article_autor  ß--- à 列表标题链接.文章作者
保存    采集
 
3.4.3功能需求
用户输入目标网址,获取页面和源文件,在页面上选择单元区域,在单元区域里定义单元格,源码区里显示单元区域和单元格所对应的代码。点击 下一层按钮,页面显示上一层的单元格列表。用户选择一个单元格,如果单元格是一个网址则获取页面和源文件,选择单元区域和单元格。重复以上过程,直到采集深度达到要求为止。点击发布按钮,进入发布设置页面。
 
在页面上以深度结构显示单元格的树型列表。用户输入数据库的url,显示数据库表,用户选择一张表,显示表的字段。用户将单元格和字段关联起来。点击 保存 保存采集规则,以后可以在采集页面上选择该规则进行采集。点击 采集 按钮,系统保存采集规则,并立即采集。
3.5 计划任务管理
3.5.1功能说明
让任务在指定的时间里自动执行。
3.5.2界面元素
计划任务设置页面:
采集规则
美女网                                    选择       新建
启动时间
12-16 12:23
采集结束后
自动地关机
  保存
 
3.5.3功能需求
用户点击    选择 按钮,弹出规则列表,选择一个规则,关闭列表窗口。指定启动时间,时间格式为 月-日 时:分 。如果用户选择自动关机项,系统采集结束后自动关闭计算机。  
4 支持信息
支持信息是指目录表,附录和索引。以便使 SRS 易于使用。
 
1.         目录表和索引很重要,而且应按照可以接受的好的文件规则来编写。
2.         对一个实际的需求规格说明来说,若有必要应该编写附录。附录中可能包括:
l         输入输出格式样本,成本分析研究的描述或用户调查结果;
l         有助于理解 SRS 的背景信息;
l         软件所解决问题的描述;
l         用户历史、背景、经历和操作特点;
l         交叉访问表。按先后次序进行编排,使一些不完全的软件需求得以完善(参见 4.3.2 条和 4.3.3 条);
l         特殊的装配指令用于编码和媒体,以满足安全、输出、初始装入或其他要求。
3.         当包括附录时,SRS必须明确地说明附录是不是需求要考虑的部分。 4.3
 
资源
说明
项目官方网站,发布项目文档,提供系统下载。
QQ:107175884
 
Mail:hotheartboy@gmail.com
 
 

 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值