数据中台的由来和技术框架
数据中台是什么,为什么要搭建数据中台
目前互联网大家都熟悉前段开发,后端开发,对于中端开发都没有概念。前期的互联网,大家就是疯狂的使用各种功能,比如支付宝(移动支付),微信(网上聊天),酷狗(听音乐)等等。似乎一个前端搞点高端大气上档次的页面,后端实现一下数据逻辑,提供一下数据接口,整个项目就做完了。一段时间后,各种竞品就出来了比如移动支付(微信、支付宝),音乐(酷狗、网易云,qq)。功能大家都有了,现在就看谁把用户服务的好了。要想把用户服务好,必须了解用户,了解产品,这个时候就需要源源不断的数据支撑了,而且数据的质量直接决定了服务的质量。所以数据中台就出来了。
数据中台的技术框架
数据中台同步业务所有的数据,给公司所有需要数据的角色使用。
目前阿里,美团等公司,都有自己的一套web页面数据平台,主要功能可以拆解为
- 数据同步
数据中台以hive左右数据仓库,实时数据kafka同步,离线的mysql同步等。
实时同步插件 flume
离线同步工具flinkx,datax
- 数据处理
离线的基于hive,sql的加工,sparkrdd的加工等
实时的flink开发等
- 数据对外能力
报表
数据接口API
大屏
多维分析
- 任务调度
任务的先后执行顺序,需要有个调度工具,现在的有azkaban、oozie
- 数据治理
作为一个数据中台,怎么管理这么一大堆表,表的质量监控怎么做,表的血缘关系怎么做,怎么查表,权限分配怎么搞