PIPELINE组测试报告
前言:我们组与学霸系统的其他两个小组共同合作开发,组成学霸系统的团体工作。作为学霸系统的一环,我们组起到承上启下的作用,因此,面向群体以及功能实现都是为给下一个组的工作做好预备工作。
1.项目基本信息:
项目名称 | 学霸系统pipeline |
客户方 | 北京航空航天大学计算机学院 UI 小组 |
开发方 | 北京航空航天大学计算机学院 I love SE 小组 |
项目委托时间 | 2013-10-16 |
项目测试时间范围 | 起:2013-11-6止:2013-11-13 |
测试参与人员 | 柴泽华,徐姗,李超,杨军,乔立男 |
2.产品面向群体:
由于我们这组的项目并不是传统意义上能发布并进行展示的项目,因此相对应的面向的用户群体也不是传统意义上的用户。我们组是学霸系统3个小组中的中间的一员,因此我们所做的东西将提供给最后一个小组使用,所以我们面向的用户是学霸系统UI组。
3.用户使用说明(即UI组调用数据库的方式):
UI组在制作提问与解答模块时需要用到我们放在服务器中的数据库。我们的数据库中的数据表共有四张。
表名 | WebPage表 | WebPage_Tags表 | Tags表 | Sensitive_Words表 |
作用 | 存有每个网页的具体属性信息。 | 网页号,标签号,还有每个网页对应标签的对应信息。 | 具体每个标签的属性信息。 | 是每个敏感词的属性信息。 |
用SQL语言表示个表格定义:
1.WebPage表:
Create Table WebPage{
wid int primary key, //wid是我们UI组查询必须要用到的唯一标识一个网页的标识
title nvarchar(255) not null, //标题
author nvarchar(255) //作者
postdate date //发表日期
link nvarchar(255) not null, //链接
referred nvarchar(255) //引用
views int not null, //学霸网站内的浏览量(初始化为0)
rate smallint not null //各个评分等级的比率
}
2. WebPage_Tags表:
Create Table WebPage_Tags{ //用于连接网页表与标签表
tid int not null,
wid int not null,
primary key (taid,wid)
preview nvarchar(255)
}
3.Tags表:
Create Table Tags{ //标签(提取的关键字)
tid int primary key not null,
name char(20) not null,
prevtaid int
}
4.Sensitive word表
Create Table Sensitive_Words{ //敏感词
sid int primary key not null,
name char(20) not null
}
UI组在制作用户提问与解答时才需要我们组制作的数据库。UI组首先调用Sensitive_Words表判断用户提问中是否存在敏感词,若无敏感词,首先将问题分割成若干个tags,然后去WebPage_Tags表中匹配哪个网页能够匹配到最多的tags,然后就将这个网页对应的preview提取出来作为问题的答案;对于其余还没有对应的tags,递归的寻找哪个网页能够匹配到最多的tags,然后就将这个网页对应的preview提取出来作为问题的答案。
4.测试环境与配置:
4.1功能测试
数据库服务器配置(本机测试) | ||||
机器名(IP) | CPU | 内存 | 软件环境(操作系统、应用软件) | |
192.168.13.43 | 2.20GHz | 2.00GB | Windows server 2008 R2 Standard | |
应用服务器配置(本机测试) | ||||
机器名(IP) | CPU | 内存 | 软件环境(操作系统、应用软件) | |
192.168.13.43 | 2.20GHz | 2.00GB | Windows server 2008 R2 Standard | |
其他说明 | 无 | |||
4.2性能测试
数据库服务器配置(本机测试) | ||||
机器名(IP) | CPU | 内存 | 软件环境(操作系统、应用软件) | |
192.168.13.43 | 2.20GHz | 2.00GB | Windows server 2012 | |
应用服务器配置(本机测试) | ||||
机器名(IP) | CPU | 内存 | 软件环境(操作系统、应用软件) | |
192.168.13.43 | 2.20GHz | 2.00GB | Windows server 2012 | |
其他说明 | 无 | |||
4.3 UI界面基本功能测试
4.3.1 主界面功能测试
功能 | 基本要求 | 测试情况 | 测试结果显示 | |
Listbox中url地址的显示 | 能显示所有要求的url地址 | 功能实现 | 通过 |
|
Totalfiles中数量的显示 | 能显示现在所有被操作网页的总数 | 功能实现 | 通过 |
|
选中Listbox中想操作的网页 | 可以选中想操作的网页 | 功能实现 | 通过 |
|
4.3.2 RawData界面功能测试
功能 | 基本要求 | 测试情况 | 测试结果显示 | |
RichTextBox中显示网页的源代码 | 可以显示所有的源代码 | 功能实现 | 通过 |
|
Return返回主界面 | 点击Return键可以返回主界面 | 功能实现 | 通过 |
|
4.3.3 DenoisingData界面功能测试
功能 | 基本要求 | 测试情况 | 测试结果显示 | |
RichTextBox中显示处理后的网页源代码 | 可以显示处理后的网页源代码 | 功能实现 | 通过 |
|
Return返回主界面 | 点击Return键可以返回主界面 | 功能实现 | 通过 |
|
4.3.4 FinalData界面功能测试
功能 | 基本要求 | 测试情况 | 测试结果显示 | |
Title中显示网页的标题 | 可以显示网页的标题 | 功能实现 | 通过 |
|
Author中显示网页的作者 | 可以显示网页的作者 | 功能实现 | 通过 |
|
Postdate中显示网页的发表日期 | 可以显示网页的发表日期 | 功能实现 | 通过 |
|
Combobox中显示网页的待选标签 | 可以显示所有的四个标签 | 功能实现 | 通过 |
|
Preview中显示网页标签相对应的预览内容 | 每一个网页标签都有预览内容 | 功能实现 | 未通过 |
|
Return返回主界面 | 点击Return键可以返回主界面 | 功能实现 | 通过 |
|
4.3.5 WordSegment界面功能测试
功能 | 基本要求 | 测试情况 | 测试结果测试 | |
ListView1中显示网页中的词频统计 | 可以显示源代码中的所有词频 | 功能实现 | 通过 |
|
Segment Result中显示分词后的降噪后数据 | 显示降噪后的网页源代码 | 功能实现 | 通过 |
|
Return返回主界面 | 点击Return键可以返回主界面 | 功能实现 | 通过 |
|
4.3.6 Input New Content界面功能测试
功能 | 基本要求 | 测试情况 | 测试结果测试 | |
各种textbox中都可以输入信息 | 可以输入信息 | 功能实现 | 通过 |
|
点击Addtag按钮后添加tag | 可以在ListBox中看到添加的tag | 功能实现 | 通过 |
|
Return返回主界面 | 点击Return键可以返回主界面 | 功能实现 | 通过 |
|
4.4保存功能测试
功能 | 基本要求 | 测试情况 | 测试结果测试 | |
Input New Content中InsertAll可保存信息 | 可以保存信息 | 功能实现 | 通过 |
|
Process操作后的WebPages,Tags,Webpage_tag表中都存入信息 | 可以存入信息 | 功能实现 | 通过 |
|
4.5 翻译功能测试
功能 | 基本要求 | 测试情况 | 测试结果测试 | |
纯英文网页可以翻译为中文 | 可以都翻译为中文 | 功能实现 | 通过 |
|
中文英文混合的网页可以翻译为中文 | 可以都翻译为中文 | 功能实现 | 通过 |
|
4.6提取关键词后的结果测试
关键词正确率指的是与手动提取关键词后的匹配结果。
测试网页序号 | URL | 关键词正确率 | 运行时间 |
1(中文) | 000.htm | 50% | 11ms |
2(中文) | 1011044489.html | 25% | 40ms |
3(中文) | 1011044488.html | 50% | 20ms |
4(英文) | _iris.eecs.berkeley.edu_05-helpdesk.html.html | 50% | 3s |
5(英文) | _iris.eecs.berkeley.edu_15-faq_00-accounts_00-email.html#supported.html | 50% | 2s |
6(英文) | _calmail.berkeley.edu_docs_client.html.html | 0% | 1s |
4.7 可靠性测试
测试内容 | 基本要求 | 测试通过 | 测试是否通过 | |
用户权限操作数据库时所受的控制 | 用户不会超越限制 | 实现要求 | 通过 |
|
用户不会向数据库中添加冗余信息 | 数据库不接受重复信息 | 实现要求 | 通过 |
|
4.8 易用性测试
测试内容 | 基本要求 | 测试通过 | 测试是否通过 | |
用户可以在看过用户规格说明后即可使用 | 用户操作简单易学 | 实现要求 | 通过 |
|
5.测试后总结
1.主要的问题还是出在关键词提取的准确率和测试时间上面,究其原因,主要是有两点:
1关键词提取算法过于简单,要使用改进后的tf-idf算法。
2分词算法中的词库太小,不够全面,并且分词粒度太小,很多专业类的词汇都被拆开。
2.preview的提取还是一个大难题,这一点老师也没有要求我们去做,做的效果也不是太好。主要原因是现在没有根据关键词去提取对应摘要的好算法,需要我们自己去摸索。
3.英文网页需要翻译,而联网的耗时比较长,但是本地的词典进行的机器翻译效果又不好,如何在这两者之间进行中和,是目前的一个大问题。
4.下一次beta版本测试时最好使用专业测试工具进行测试。
————edited by 柴泽华