数据仓库杂谈

昨天跟同事聊了下目前哪些行业数据仓库比较领先,各个行业的数据仓库是怎么做的,跟互联网比,差别是什么东西,前期资源评估,数据库选型怎么搞等。有点心得,记录如下:

1,目前来看,金融,保险,通信,互联网,物流这几个行业的数据仓库做的比较领先,其中由于金融和通信的业务模型比较稳定,清晰,所以基本上从业务建模,概念建模,逻辑建模,物理建模这一整套步骤都比较清晰,流程化,难怪IBM,TD已经将这些行业的数据仓库建设给固化了。

2,抛开抽象的,和业务相关的业务层,概念层。从逻辑层来看,基本都是差不多的,通信行业有stage层,和bdl,然后再是上面的经营分析系统。金融行业有ods,pdm,dm三层模型。互联网企业有odl,bdl,idl,adl四层。其中stage,ods,odl都是一样的,源数据层,直接从前台搬数据。bdl层和pdm层,以及idl层是类似的,都是面向主题,从源数据层到主题层都是巨复杂的逻辑,然后主题层之上,就是各种的指标,分析等。感觉都差不多。三层模型基本就适用了,最大的问题:odl-->idl为什么不解耦?其实这个可能跟业务场景,项目目标有关,计算环境有关。如果业务场景简单,计算环境并行性高,解耦就没有多大意思了,如果业务场景复杂,计算环境都是串行的,那可能就要考虑下分层,减少计算消耗。

3,通常做一个项目是几千个人日,持续时间都是半年以上,这就是传统行业的数据仓库项目。据说这些项目的实施过程都是类似的,主要的消耗就是人力成本,项目都是以架构师带老人,再加N个新人的方式做的,估计利润非常可观啊。。。

4,项目通常以外包的形式完成,自己不养数据仓库相关的开发人员,目前看起来,除了互联网企业之后,其他行业基本都是外包的形式在走,每次项目的迭代周期都是以半年期或者1年期。互联网企业因为业务模式的不灵活性,业务的变动频繁,所以迭代周期短,必须得养着大批的开发同学。不然等半年后,黄花菜都凉了,但是金融,财务,通信等确实是可以这么搞,都是经历了大半个世纪的沉淀,业务都很稳定了。

5,范氏建模是从数据驱动来看的,维度建模是从业务来看的,业务需要哪些维度,我们就提供哪些维度。两者都有各自的应用场景,前者多数在仓库领域,在业务目标不清晰,不明朗的情况下,或者业务目标不唯一的时候,这么干的,比如说互联网;后者在数据集市的领域比较多,因为业务目标清晰,比如财务报表,分析的维度有部门,区域,产品,时间等维度,用维度建模就非常合适了。有的时候,可以将两者合起来做,因为仓库是基础,集市可以作为各种业务展现。

6,数据库选型怎么做?oracle;greenplum,mysql怎么选?一般来说都是跟着业务目标走,稳定性基本上都是第一考虑要素,而且金融和通信又都不差钱,所以oracle基本上就是第一选择了,其他新出的数据库,基本都没他稳定,没他的成功案例多。在互联网企业,因为允许试错,所以非常乐意尝试各种新技术,greenplum,mysql,hive等都是选型的范围,目前在大数据的浪潮中,hive的重要性已经越来越体现了。

7,数据营销在传统行业中都是作为经营分析系统,或者决策分析系统的一部分,主要都是体现在营销活动中,比如针对那类用户用什么样的服务等,由于这些企业的服务产品多,有各种套餐组合,或者各种理财产品,所以营销活动很好弄,而在互联网企业,服务内容很匮乏,导致营销手段有闲,这种影响是两方面的,一是影响了用户分层,丫的,无论我怎么分层,营销的手段就是一种,那我还整个球啊;二是重复的营销内容导致用户疲乏,兴趣度下降。难怪去年大家都想搞资讯,有内容才是王道啊。

8,所有的数据都是围绕其关键路径,比如通信的关键路径,就是买套餐,打电话,发短信。金融就是存款,取款,理财。互联网就不说,太多,太杂了,路径多数是扁平状,不深。

下次还是要多聊,多想,多积累。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值