大数据分析必不可少之数据仓库

本文介绍了数据仓库在数据分析中的重要性,强调其面向主题、集成化、不可更新的特点。数据仓库需要具备高效、高质量和可扩展性。内容涵盖数据仓库的三层架构、ETL过程、数据获取、数据模型建设、数据主题、报表、数据集市和开放API,以及元数据管理,阐述了数据仓库如何支持决策支持和提高数据准确性与效率。
摘要由CSDN通过智能技术生成

  数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。

 

  数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。

 

  01数据仓库的特点

 

  面向主题的,按照一定的主题进行组织,主题是指用户使用数据仓库进行决策时所关心的重点方面,后面会重点举例说明。

 

  数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工和集成之后,进入数据仓库。

 

  数据仓库是不可更新的,数据仓库主要是为决策分析供数据,所涉及的操作主要是数据的查询;

 

  02数据仓库有如下要求

 

  效率足够高:数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高。

 

  数据质量:由于数据仓库流程通常分为多个步骤,包括数据清洗,转换,装载等,那么由于脏数据会导致数据失真,就可能导致做出错误的决策。

 

  可扩展性:主要体现在数据建模的合理性。

 

  数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——数据获取、数据仓库、数据应用:

 

  数据分析必不可少之数据仓库_大数据视频_数据分析视频_数据管理视频_课课家

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值