数据仓库基本认知

数据仓库概念:

数据仓库,英文名称Data Warehouse,简写为DW。
是一种面向分析的存储系统。

他是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。
它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

数据仓库作用:

数据可以多维度分析,可以预测,利于做商业决策

数据仓库特点:

主题性:

所有数据都围绕着主题来组织。

集成性:

统一编码,统一单位,统一类型,因为原始数据来自不同数据源,有着不同的存储方式。

非易失性(也叫稳定性):

一般周期性的从生产库拉取数据,那么有些状态可能生产库已经改变了,但在数据仓库已经记录下来了。

随时间变化:

数据仓库中,每条数据都会和时间关联,表达他是什么时间的什么数据。

数据仓库重要概念:

ETL( Extract-Transform-Load):数据的抽取,转换,加载。

市场上有专门的工具做这个(Informatica powercenter、Datastage、Oracle OWB(oracle warehouse builder)、ODI、微软DTS、Beeload、Kettle、Talend 、DataSprider、Spark、等等……)。

常见的数据仓库:

常见的数据仓库就是hive(主要是免费),属于hadoop生态圈的一员,可以查询HDFS(分布式文件系统)中的数据。
Hive有专门的查询语言HiveQL,简称HQL。
了解Hive,首先要了解Hadoop生态圈,HDFS,mapreduce,以及谷歌三大论文等大数据方向的知识,后面再细说。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值