24.4 SQL Server的集成服务

http://book.51cto.com  2010-06-17 15:13  杨华/腾灵灵译  清华大学出版社   我要评论(0)
24.4  SQL Server的集成服务
在第16章中已经详细介绍了集成服务,但是为了说明它能够以一致的方式用在数据仓库中,在这里重提一下是值得的。
很多组织需要把数据集中起来以提高决策的正确性。被集中的数据通常会以各种各样的格式存储并且来自很多不同的源。在很多情况下,在把这些数据存储到数据仓库中之前,需要对这些数据源中的行数据进行调整和转换。SSIS是执行这类任务的绝佳工具,它提供了一种方式来把数据从源移到目标数据仓库中,并且在这个过程中会根据需要对数据进行验证、清洗、整理和转换。
24.4.1  数据验证
在数据被传送到目标数据仓库之前对数据进行验证是及其重要的。如果数据是无效的,那么在此数据上进行的业务分析的完整性是令人怀疑的。例如,如果其中一个字段是货币,同时在世界上的多个国家都存在OLTP数据源,那么就必须要把这个货币字段中的数据传送到目标数据仓库的货币字段中,同时必须要根据事务发生时的汇率对这个值作相应调整(不仅仅是兑换时那些当前值)。
24.4.2  数据清洗
通常,"清洗"的程度或性质决定了它无法在转换过程中执行进行。例如,可能需要在把数据填入同一个数据仓库的多个源之间调和数据。这个对多个数据源之间的数据进行调和并且在数据上应用其他一致性规则的过程叫做数据清洗。例如,如果一种自行车在一个源中被分为山地车的类别,而在另一个源中被分为娱乐的类别,那么在数据仓库中包含这一汇总将会出现错误的结果,除非在数据转换过程中对这两个数据源进行调和。
可以通过多种不同方式来实现数据清洗。对这些方法的详细介绍已经超出了本书的范围,这里只是简单提一下:
在把数据从源复制到目标数据存储时使用SSIS修改数据。
在临时"清洗"数据库或一组表上应用T-SQL脚本。
【责任编辑: 云霞 TEL:(010)68476606】

0

收藏

51bom

492篇文章,19W+人气,0粉丝