数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。
01数据仓库的特点
面向主题的,按照一定的主题进行组织,主题是指用户使用数据仓库进行决策时所关心的重点方面,后面会重点举例说明。
数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工和集成之后,进入数据仓库。
数据仓库是不可更新的,数据仓库主要是为决策分析供数据,所涉及的操作主要是数据的查询;
02数据仓库有如下要求
效率足够高:数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高。
数据质量:由于数据仓库流程通常分为多个步骤,包括数据清洗,转换,装载等,那么由于脏数据会导致数据失真,就可能导致做出错误的决策。
可扩展性:主要体现在数据建模的合理性。
数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——数据获取、数据仓库、数据应用:
数据分析必不可少之数据仓库_大数据视频_数据分析视频_数据管理视频_课课家