DW2.0与第一代数据仓库的区别

DW2.0新一代数据仓库环境的架构。DW2.0和第一代数据仓库有很大的差别。四个最大的差别如下:
*随着数据进入并存储于数据仓库,产生了对数据生命周期的认识。
*数据仓库总包含非结构化数据。
*DW2.0环境包含元数据。
*DW2.0的技术基础能够随着时间而变化。
DW2.0有四个主要的生命周期区:
*交互区,数据仓库以更新模式在交易响应时间水平下完成构建。
*整合区,数据在这里经过整合并完成分析处理。
*近线去,作为整合区数据的一个缓存区域。
*归档区,存放访问概率显著下降但仍有可能被访问的数据。
DW2.0既包含结构化数据,也包含非结构化数据。非结构化文本进入数据仓库之前必须首先要经过一个整合过程。整合过程对于为文本分析提供非结构化文本非常必要。如果非结构化文本未经整合,就无法有效地进行文本分析。
为非结构化数据进入DW2.0环境做准备的主要任务之一就是清楚“废话”。另一项必做的工作就是术语规范化。文本必须同时拥有特殊的和一般的两种参考,以便成功地进行文本分析。
元数据是DW2.0的一个重要组成部分,它有以下几个级别:
*企业级
*本地级
*业务级
*技术级
要想获得成功,DW2.0环境必须建立在可随时间变化的技术基础之上。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值