探查与数据挖掘:还是对数据仓库的粒度有要求,数据仓库中经过清理的、集成的和有组织的历史数据,,为数据挖掘提供了很好的基础,
活样本数据库:就是从数据仓库中随机取出一下数据,可以定制数量,或者条件去取出一部分数据,主要是为统计数据和观察发展趋势提供数据,好处就是存储效率很高,但是要根据实际情况决定到底要不要建,对建立活样本有限制,如果不清楚限制条件请不要建,在统计学或概要生成还是很有用的。
分区设计方法:
分区是把数据分散到可独立处理的分离物理单元中去,分区分好会好处多多。。。
关键问题:如何对当前细节数据进行分区。
目的是:把数据划分成小的且可管理的物理单元,是数据管理更具灵活性。
分区标准:时间,业务范围、地理位置、组织单元。日期总是时间分区标准中的一个必然组成部分。
问题:在系统层上建分区,还是在操作层建分区。
在系统层上建立分区一定程度上是DBMS和操作系统的一种功能,在应用层上建立分区是由应用程序代码实现的,在应用层上分区更好些,可以对数据有不同的定义,重要的是当要将数据从一个处理设备转移到另一个处理设备会很容易,当工作负载和数据量成为真正的负担时,就会显现优点。