早前读了《数据产品经理的前世今生》,从6个方面阐述了数据产品的分类和形态。
这里我要讲下数据平台产品的架构与设计,数据平台不同于传统的数据库,也不同于普通的数据产品,相对而言更加底层,是分析师使用大数据进行分析的工具。
一般地,数据平台由 hadoop集群、数据开发平台(IDE)、任务调度系统、数据交换系统、数据展示系统及元数据管理平台构成。
hadoop集群大家都比较熟悉,国外已经出现相对比较成熟的集成方案,如Cloudera和Hortonworks厂商,使用集成部署工具,可以实现低成本快速部署,对于中小企业,1-2人即可维护hadoop和相关主键,厂商间的竞争和讨论也推动着分布式计算技术的进步,前两年的hadoop失败论也渐渐减少,讨论的热点开始转移到分析项目的实施。
数据开发平台,指的是提供给分析师使用的非底层client工具,hadoop相关的组件,如hive, hbase等都提供了hive client 或者hbase shell等工具,但是,对于分析师而言,他们需要一个比较方便的操作平台,可以之间在平台上随意切换使用hive SQL还是hbase shell,并且可以将创建的脚本或者应用一键部署到集群中去,开发平台称为必要。Cloudera提供了HUE作为其web IDE工具,集成了hive SQL、 Impala及元数据管理的相关功能。数据开发平台极大地提高了分析师的效率,对分布式离线分析系统的成功至关重要。分析代码开发完成后,如何能够部署到集群并按照计划时间周期执行。任务调度系统称为必要。
任务调度系统,将开发平台的脚本或者程序纳入到调度中周期执行,需要考虑任务间的相互依赖关系,考虑任务周期执行的效率。
数据交换系统是整个集群的进出门户,所有的接入集群或从集群导出的数据都要在数据交换中进行注册,保证进入数据的质量及导出数据的安全防控,数据交换系统同时提供数据的运输卡车,即ETL工具,对数据进行搬运。
数据展示系统,则是数据分析结果到达终端用户的最后一站,准确的分析结果、丰富多样的展现形式和多终端的展现支持都是都是非常关键的。
好久没有写博客了,先写到这里,这只是一个框架,之后会逐步丰富数据平台产品的设计细节,让更多的同学了解数据产品的丰富。
--爱数志idatawill