华南理工大学计算机科学与工程学院2012—2013学年度第二学期期末考试《数据仓库与数据挖掘技术》试 卷(假的)专业:计算机科学与技术 年级:2010 姓名: 学号:
注意事项:1. 本试卷共四大题,满分100分,考试时间120分钟;2. 所有答案请直接答在试卷上;
题号一二三四总分得分一.填空题(每空1分,共20分)1.数据仓库的特征包括_面向主题________、___集成_________、__时变_________和非易失性。2.数据仓库的三种数据模式包括_星形模式_、__雪花形模式__________、___事实星座形模式________。3.仓库数据库服务器、_OLAP服务器________、__前端客户__________为数据仓库的多层结构。4. OLAP技术多维分析过程中,多维分析操作包括?__上卷___、__下钻____、___切片____、__切块__________、__转轴_________等。5. 知识发现过程的主要步骤有:数据清理、__数据集成__________、__数据选择___、数据交换、_数据挖掘________、___模式评估_________、__知识表示_______。6. 数据仓库的视图的分类有:自顶向下视图、_数据源视图________、数据仓库视图、_商务视图_________。
二.简答题(每题6分,共42分)1.简述处理空缺值的方法。1、忽略该记录 2、手工填写空缺值3、使用默认值4、使用属性平均值5、使用同类样本平均值6、使用最可能的值2.挖掘的知识类型。1、概念/类描述:特征化和区分2、挖掘频繁模式、关联和相关3、分类和预测4、聚类分析5、离群点分析6、演变分析
何为OLTP与OLAP及他们的主要区别。联机事务处理OLTP (on-line transaction processing);联机分析处理OLAP (on-line analytical processing);OLTP和OLAP的区别:用户和系统的面向性:OLTP面向顾客,而OLAP面向市场;数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据;数据库设计:OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型;视图:OLTP系统主要关注一个企业或部门内部的当前数据,而OLAP 系统主要关注汇总的统一的数据;访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询。
在数据挖掘之前为什么要对原始数据进行预处理?数据预处理对于数据仓库和数据挖掘都是一个重要的问题,因为现实中的数据多半是不完整的、有噪声的和不一致的。数据预处理包括数据清理、数据集成、数据交换和数据规约。
为什么需要构建单独隔离的数据仓库?使得操作数据库与数据仓库都获得高性能DBMS—OLTP: 访问方法, 索引, 并发控制, 数据恢复。Warehouse—OLAP: 复杂OLAP查询, 多维视图, 整理。对数据与功能的要求不同:丢失的数据: 决策支持需要历史数据,而传统数据库并不一定维护历史数据。数据整理: 决策支持需要对异构数据源进行数据整理 。数据质量: 不同的数据源常常具有不一致的数据表示,编码结构与格式。关联规则的确定性度量与实用性度量的分类及定义。支持度和置信度是关联规则的确定性度量与实用性度量。(1)支持度:事务包含XUY的概率,即support=P(XUY) 支持度计算: Support(X?Y) = P(X U Y )={XUY}的支持度计数(模式或项集在DB中出现的频率)/事务表中总的事务数(2)置信度:事务同时包含X与Y的条件概率:confidence=P(Y|X) 置信度计算:Confidence(X?Y) = P(Y|X)=P(XUY)/P(X) = {XUY}支持度计数/X支持度计数
简述分箱平滑的方法。对数据进行排序,然后把它们划分到箱,然后通过箱平均值,箱中值或者箱边界值进行平滑。分箱的方法主要有:① 等深分箱法 ② 等宽分箱法数据平滑的方法主要有:平均值法、边界值法和中值法
三.计算题(共38分)1.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin=40%,confmin=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(10分)事务项目T1T2T3T4T5面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱啤酒、面包啤酒、牛奶
解