数据仓库与数据挖掘
联机事务处理(OLTP)环境:用于支持企业基本业务应用的环境。
数据仓库:面向主题的、集成的、非易失的、随时间变化的数据集合,用来支持管理人员的决策。
数据仓库特性:面向主题、集成、不可更新、时间特性。
典型数据仓库的数据体系结构:操作型数据、操作型数据存储、数据仓库、数据集市、个体层数据。
数据仓库的数据体系中的功能可分为数据处理、数据管理、数据应用三层。
系统中存在不同综合级别的数据,一般将综合级别称为粒度。粒度越大,综合程度越高;粒度越小,综合程度越低。
数据分区:系统层分区和应用层分区。
元数据一般分为技术性元数据和业务型元数据。
操作型数据存储层(ODS):即时OLAP和全局型OLTP应用。
根据数据更新的速度来划分的三类ODS:
①ODS 1:数据更新频率秒级
②ODS 2:数据更新频率小时级
③ODS 3:数据更新频率天级
数据仓库的逻辑模型既可以采用关系型模型,也可以采用多维数据模型。
数据仓库中数据的维护策略分为三种:实施维护、延时维护、快照维护。
多维分析的基本操作:钻取与卷起。钻取与卷起是OLAP(联机分析处理)分析的两个最基本操作。
OLAP的实现方式有三种:基于多维数据库的OLAP、基于关系数据库的OLAP和混合型的OLAP。
数据挖掘一般由三个主要阶段组成:数据准备、数据挖掘、结果的解释评估。
数据仓库环境,粒度影响数据仓库的数据量和系统能回答的查询的类型。
大规模数据库架构
分布式数据库最基本的特征:本地自治、非集中式管理、高可用性。
分布式数据库分布透明性:位置独立性、数据分片独立性、数据复制独立性。
数据分布策略:
①数据分片:水平分片、垂直分片、导出分片
②数据分配:
*集中式:所有的数据片断安排在一个场地上。
*分割式:所有全局数据有且只有一份,被分割为若干片断,每个片断被分配在一个特定场地上。
*全复制式:全局数据有多个副本,每个场地上都有一个完整的数据副本。
*混合式:全局数据被分为若干个数据子集,每个子集被安排在一个或多个不同的场地上,但每个场地未必保留所有数据。
分布透明性:
①分片透明性:最高级别的透明性。