oracle warehouse builder 在ETL 中的数据质量控制

参考网址:http://database.ctocio.com.cn/tips/265/7419765.shtml

ETL是非常重要的一步,往往一个项目的成败就是看ETL过程的成功与否.选用一个好的ETL工具会让项目更加的有信心

  数据质量一直是ETL工具的一个高级特性,为了解释清楚这个问题,让我们看看Oracle的商业ETL工具Oracle Warehouse Builder 在数据质量上是如何管理的

  oracle在官方网站上有一篇专门介绍如何使用oracle warehouse builder的文章,地址为http://www.oracle.com/technology/pub/articles/rittman-owb.html?rssid=rss_otn_articles?msgid=4931461, 是mark rittman所写,rittman公司本身也是一个专业的oracle 数据仓库 和商业智能方面的顾问公司,在oracle 方面非常的有发言权,如果你对oracle和数据仓库,或者oracle商业智能有兴趣的话,可以看一下上面的这篇文章,本文所有图片引自上面的这篇文章。

  ETL难以成功有以下几个难点:

  •   1 . 数据仓库的数据来自于多个数据源,所以数据的一致性很难得到保证,很多情况下需要一种硬性的标准来决定数据的取舍问题.
  •   2 . 数据格式问题,例如数据缺失,超出数据范围,无效数据格式等等。
  •   3 . 出现错误之后没有正确的处理问题,导致数据的质量不断的下降。
  •   4 . 数据一致性问题,处于数据库性能考虑,有时候可能会有意的去掉一些外间或者检查约束。
  •   5 . 业务逻辑问题.由于数据库在最初设计时就不够严格和谨慎。

  我们怎么判断数据的质量好坏的呢,一般用户拿原有系统的显示方式查看某一查询条件的数据与用商业智能报表所产生出来的数据进行对比,看有多大的出入,这个可能需要原先系统有足够的能力显示这些数据并且商业智能工具的报表有足够强大的查询和报表展示能力,或者是用商业智能的报表与OLAP运行出来的报表进行对比,看有多大的出入,出入一般都是会存在的,因为数据不可能完全的准确,但是一定要搞清楚哪里数据出现了问题,并且尽量不要让这些误差扩大到用户无法接受的地步,否则就认为BI失败了。(咋同是一个工具做出来的,数据的出入就这么大呢?)

  oracle warehouse builder 提供三个特性来使ETL的过程简单

  1 . Graphical Data Profiler 可以查看数据的结构,语义,内容,异常,和大纲,数据规则 , 这就是在前一篇说的,kettle的数据管理没有oracle warehouse builder 强大的特性.kettle也提供查看表结构,column的结构,但是它不会判断一个column是不是主键或外键,一个字符串的最小长度是多少,最大长度是多少,一个整数的长度是多少,一个double的精度是多少。

  2 . Correction Wizard 把数据规则应用到你的ETL过程中,自动映射并更正,清理,转化数据, 相当于oracle warehouse builder 提供一些默认的值来帮助你更快的创建映射规则,这个功能也比kettle强大。

  3 . Data Auditor 获取数据规则并监控数据转换的过程。kettle也提供数据监控的机制,并把log记入下来,并告诉你重复的记录数,读写多少条记录,更新拒绝多少条记录,时间,速度,步骤是否成功等信息.

  oracle warehouse builder 提供查看选中表的结构信息和数据信息

oracle warehouse builder 提供查看选中表的结构信息和数据信息

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Oracle、GaussDB和GCDW(GaussDB Cloud Data Warehouse)在数据安全方面有一些区别,主要涉及以下方面: 1. 数据加密: - OracleOracle提供了多种数据加密选项,包括透明数据加密(TDE)、数据库加密和网络传输加密等,可以对数据进行全生命周期的保护。 - GaussDB:GaussDB同样支持透明数据加密(TDE)、数据库加密和网络传输加密,保障数据的机密性和完整性。 - GCDW:作为云数据仓库解决方案,GCDW也支持数据加密功能,可以保护数据在存储和传输过程的安全性。 2. 访问控制: - OracleOracle提供了细粒度的访问控制机制,如基于角色、权限和用户的访问控制,可以精确控制用户对数据数据库对象的访问权限。 - GaussDB:GaussDB同样提供了灵活的访问控制机制,可以通过角色、权限和用户来管理对数据数据库对象的访问。 - GCDW:GCDW在访问控制方面提供了与GaussDB相似的功能,可以实现细粒度的权限管理。 3. 安全审计: - OracleOracle支持安全审计功能,可以记录用户的操作和系统事件,并生成审计日志,以便进行安全审计和合规性检查。 - GaussDB:GaussDB也提供了安全审计功能,可以记录用户的操作和系统事件,帮助监控和审计数据库的使用情况。 - GCDW:GCDW在安全审计方面提供了与GaussDB相似的功能,可以记录用户的操作并生成审计日志。 4. 数据备份与恢复: - OracleOracle提供了丰富的数据备份和恢复机制,包括物理备份和逻辑备份,支持灾难恢复和高可用性配置。 - GaussDB:GaussDB同样提供了数据备份和恢复的功能,可以实现数据的持久性和可靠性。 - GCDW:GCDW作为云数据仓库解决方案,具备自动备份和恢复的能力,以保障数据的可靠性和持久性。 需要根据具体的安全需求和合规性要求选择合适的数据库系统和安全措施。Oracle、GaussDB和GCDW都提供了一系列的数据安全功能和机制,可以满足不同场景下的安全需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值