数据产品思考

早前读了《数据产品经理的前世今生》,从6个方面阐述了数据产品的分类和形态。

这里我要讲下数据平台产品的架构与设计,数据平台不同于传统的数据库,也不同于普通的数据产品,相对而言更加底层,是分析师使用大数据进行分析的工具。

一般地,数据平台由 hadoop集群、数据开发平台(IDE)、任务调度系统、数据交换系统、数据展示系统及元数据管理平台构成。

hadoop集群大家都比较熟悉,国外已经出现相对比较成熟的集成方案,如Cloudera和Hortonworks厂商,使用集成部署工具,可以实现低成本快速部署,对于中小企业,1-2人即可维护hadoop和相关主键,厂商间的竞争和讨论也推动着分布式计算技术的进步,前两年的hadoop失败论也渐渐减少,讨论的热点开始转移到分析项目的实施。

数据开发平台,指的是提供给分析师使用的非底层client工具,hadoop相关的组件,如hive, hbase等都提供了hive client 或者hbase shell等工具,但是,对于分析师而言,他们需要一个比较方便的操作平台,可以之间在平台上随意切换使用hive SQL还是hbase shell,并且可以将创建的脚本或者应用一键部署到集群中去,开发平台称为必要。Cloudera提供了HUE作为其web IDE工具,集成了hive SQL、 Impala及元数据管理的相关功能。数据开发平台极大地提高了分析师的效率,对分布式离线分析系统的成功至关重要。分析代码开发完成后,如何能够部署到集群并按照计划时间周期执行。任务调度系统称为必要。

任务调度系统,将开发平台的脚本或者程序纳入到调度中周期执行,需要考虑任务间的相互依赖关系,考虑任务周期执行的效率。

数据交换系统是整个集群的进出门户,所有的接入集群或从集群导出的数据都要在数据交换中进行注册,保证进入数据的质量及导出数据的安全防控,数据交换系统同时提供数据的运输卡车,即ETL工具,对数据进行搬运。

数据展示系统,则是数据分析结果到达终端用户的最后一站,准确的分析结果、丰富多样的展现形式和多终端的展现支持都是都是非常关键的。


好久没有写博客了,先写到这里,这只是一个框架,之后会逐步丰富数据平台产品的设计细节,让更多的同学了解数据产品的丰富。

--爱数志idatawill



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值