建设高效数据仓库的几点建议

  数据分析领域有一句经典名言“垃圾进,垃圾出”,以此来警醒业务和技术部门重视数据质量,进而强化数据治理。当前涉及大型数据集(数据仓库)的主流BI服务,虽然在前端仪表盘制作前就会对后台数据服务进行梳理,并设法构建数据处理的底层公共库,但仍然存在一下常见问题:

  1.中间数据的计算结果没有共享,无法实现字段结果的复用

  2.对多个数据源的数据进行整合的能力不足

  3. 基层数据清洗必须建立在对业务逻辑十分清晰的基础上(对于技术人员往往有较高要求)

  下面是针对于以上问题,提出的数据仓库建设的相关建议及审核清单。

  1.充分进行调研准备,明确仓库逻辑与主题

  数据仓库在建立之初的关键不是技术的选型和实施,而是对业务部门进行充分调研。业务人员往往在一开始并不了解自己的需求在技术层面的实现效果,为此,充分地沟通,了解他们想要解决的问题和各个指标间的关联和含义,才能明确各个主体下的查询分析需求。

  此外,你还需要与业务人员确认以下内容:

  ·技术操作的频率:业务人员每隔多久做一次查询分析。

  ·在系统中的数据的保存时限(月和年限)

  ·用户查询数据的主要方式,如时间维度上的自然年和财政年。

  ·用户能接受的响应时间是多长(多少秒还是几小时?)。

  2.选择满足数据仓库系统要求的软件平台

  对于数据仓库而言,业界往往是传统BI企业产品做得较为出色,拥有丰富的工具集,但前端展示笨重,开发部署周期较长。而敏捷BI产品(如tableau和qlik)往往不具备处理数据仓库的能力,其在数据库层面的建模能力几乎为0,如果采取“混搭”方案(如tableau+SSIS),往往会出现兼容不佳等诸多问题。

  对于平台选型,以下是一些公认的选择标准:

  ·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。

  ·数据库对大数据量(TB级)的支持程度。

  ·数据库对并行操作的支持程度。

  ·数据仓库的建模工具的完备程度,是否支持对元数据的管理。

  ·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。

  ·是否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。

  ·前端的报表展现和开发是否足够敏捷高效。

  当前业界普遍认可的集成BI产品是Microstrategy(MSTR),从数据仓库建模到前端展示,其均具备最高级别的产品技术实力,其技术水平常年得到国际各大技术测评的认可,是集传统BI和敏捷BI工具优势于一身的优秀产品。

  3.优化数据仓库的逻辑模型

  数据仓库的基本设计逻辑已是老生常谈,此处不做赘述。当前的数据仓库设计更需要考的是性能问题。在数据仓库设计过程中和建成后,都需要对性能进行监控,并随着需求和数据量的变更进行调整。

  当前优化数据仓库性能的主要方法是:

  ·整合各数据表的范式,进行必要的合并。

  ·通过增加汇总表避免数据的动态汇总。

  ·通过冗余字段将表连接的数量控制在3~5个。

  ·用ID码而非描述信息作为键值。

  ·数据表分区管理。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值