1、ETL
ETL分别为extract、transform、load也就是抽取、转换、加载。ETL简称数据抽取,按照统一的规则将数据进行集成并提高数据的价值,负责完成数据从数据源到目标数据仓库的转换。
1)数据抽取
数据抽取中的数据来源于所要抽取的原始业务数据库,需要做到既能满足策略需要,又不能影响原始业务数据库的性能。因此抽取过程中需要制定相应的策略———抽取方式、抽取时机、抽取周期等内容。
2)数据转换
数据转换就是将抽取来的数据按照事先设计好的规则进行格式上的统一。由于业务系统开发周期的原因导致许多数据的存储格式不统一,甚至数据仓库要分析的数据需要通过一系列的公式从各部分数据来得到。这就需要对抽取的数据能够进行灵活的计算、合并、差分等转换
3)数据装载
数据装载就是将转换好的数据按计划增量或者是全部导入到数据仓库里。一般情况装载在系统更新之后进行,如果数据仓库的数据来源于多个相互关联的业务系统,n那么就需要在这些系统同步的时候进行移动数据。
数据装载包括基本装载、追加装置、破坏性合并、建设行合并等······
2、数据仓库和数据集市的关系
1)数据集市的类型
从属型数据集市:那些数据源来源于中央数据仓库的数据集市就叫做从属型数据集市。
特点:数据与数据仓库保持一致,一般都是为频繁访问数据仓库的关键业务部门建立从属型数据集市,这样可以提高查询的反应速度。
结构如下:
独立型数据集市:他的数据来源于数据源(各个业务系统的数据)出于成本原因,企业为个别部门建立的独立型数据集市,他的量级和服务对象和数据仓库有一定差距,但是结构逻辑都是一样的,所以又称为部门级数据仓库。
结构如下:
2)数据及时与数据仓库的区别
①规模大小:数据仓库向各个数据集市提供数据,前者为企业级后者为部门级
②开发周期和速度:若干个数据集市组成数据仓库。
③数据结构:数据仓库采取第三范式数据集市采取星形模式。数据仓库的数据粒度更细。