达达-京东到家大数据平台是根据公司业务持续快速成长,而规划建设的一个可持续发展的平台。在建设过程中我们借鉴了很多公司实施大数据平台的经验,并因地制宜构建了我们自己的实施策略,确保在大方向上不会走偏,并且每一年都会有重大变化和质的成长。
建设回顾
图1 大数据平台建设历程
2016年——DRP平台建设
这个阶段数据仓库还是Mysql,所有工作几乎都是围绕着短、平、快实现重要核心报表而开展,DRP的成功实施大大减少了分析师的工作量,给公司数据驱动换上了新的引擎。
2017年——工具专业化建设
这个阶段数据仓库已经换成Hive,因为mysql实在跑不动了,但是围绕数据的一些工具都是空白的,分析师需要靠自己强大的记忆力来记住重要的元数据信息,业务部门也只能通过分析师获取数据。在这一年,统一权限管理、元数据平台、自助报表平台、自助查询平台、数据交换平台等工具应运而生,让数据开放由设想变成实际可行。
2018年——应用体系化建设
由于历史原因,这个时候整个平台技术和应用体系其实还是挺参差不齐的,随之而来的是系统稳定性比较差,DW值班人员经常需要起夜处理问题。这一年我们花大力气重构了调度开发平台、需求管理平台,研发了数据质量监控系统,优化了权限体系、报表体系、查询体系和数据交换体系,自研了E-SQL来解决HUE糟糕的使用体验。同时,在数据服务和数据应用的建设上有了实际性的进展,各种数据开始通过数据服务中台更加直接的影响业务,苍穹系统也探索完成首个业务模块。
2019年——资产生态化建设
2019年的主要方向是让数据回归资产本质,让平台拥有生态体系,让应用实现产品驱动。我们会在数据仓库建设上提炼行业数据资产;在计算引擎、存储引擎、安全引擎及同步引擎上实现平台生态化;在苍穹系统建设上用更加产品化的思维帮助业务方发现问题并提供解决方案,提升大家的工作效率。
下面我将简单介绍一下当前达达-京东到家大数据平台的总体框架及主要组成部分的情况,并结合这些模块的建设过程来阐述一下我们的实施策略。
总体框架
图2 大数据平台总体框架
达达-京东到家大数据平台作为同时支持公司达达物流和京东到家两大事业群发展的基础平台,它由四部分组成:
统一的数据仓库(