导读: 本文将介绍过去15年中,网易大数据团队在应对不断涌现的新需求、新痛点的过程中,逐渐形成的一套逻辑数据湖落地方法。内容分为五部分:
- 关于网易数帆
- 为什么做逻辑数据湖
- 怎么做逻辑数据湖
- 未来规划
- 精彩问答
--
01 关于网易数帆
网易数帆是从网易杭州研究院孵化出来的。网易杭研的重要职责是公共技术的研究和产品孵化。下图是网易数帆的整体产品架构。
1. 网易大数据发展历史
网易是国内领先的互联网技术公司,从2006年就开始对大数据相关技术进行探索。2009年为了支撑网易博客等产品的海量数据,开始了分布式文件系统、分库分表中间件(网易DDB)等技术的研发,并且于当年引入了Hadoop进行探索。2014年到2017年,网易对大数据平台的建设在内部取得了良好效果,同时发现业界存在普遍相似痛点,于是开始对外做商业化尝试。2018年支持网易严选、考拉、音乐、新闻数据中台构建。通过在商业化过程对市场需求的摸索实践,终于在2019年形成了“全链路数据中台”解决方案,致力于将“数据生产力”的理念能力落实到解决方案中。
纵观网易大数据的发展历史,可以看到这个过程中贯穿了数据理念的变化。有数从公共数据平台逐渐转变为具备有业务属性的数据中台,最后逐步向“数据生产力”理念靠拢。在这个理念下,会要求我们要不断贴近用户、了解用户实际情况,做到第一时间提供更好的服务。同时在服务用户的过程中,为了给用户提供更多价值交付,逻辑数据湖的产生是必然的。这个过程从技术发展角度看,也伴随着湖仓一体的探索和落地。
2. 业务支撑情况介绍
上图最上层是网易有数对公司内外提供的业务支撑情况。网易有数的技术能力通过一套方法论、一个工具平台和公共数据建设三部分对上层输出整体的价值。同时在落地过程中,形成了技术业务双循环的模式。双循环中涉及三个角色,两种驱动力。三方分别是内部用户、外部用户、数据中台;业务场景、技术前瞻是推动双循环的驱动力。这两种驱动缺一不可:大数据技术和应用发展日新月异,数据中台的业务支撑能力特别依赖于底层的技术能力和前瞻性。
--
02 为什么做逻辑数据湖
1. 数据生产力不足的问题
网易有数最早想要提升数据生产力是从建设数据开发平台开始的。在建设使用过程中暴露出各种问题导致了数据生产力不足:
2. 数据生产力低下的原因
在梳理了数据开发平台碰到的问题之后,我们开始思考问题的根本原因是什么。最终结论就是:这不仅是一个技术问题,更是产品体系问题。我们缺少一套贴近需求的数据产品力体系。这也是业内的数据平台在业务支撑中的普遍问题。
所以我们重新打造了我们的产品体系来保证整个数据应用的生产力落地,第三部分会展开来讲我们如何通过构建逻辑数据湖来支撑这套产品力的落地。
3. 数据生产力支撑——大数据底座
最近十几年大数据相关技术的发展主要是基于开源的技术构建,我们团队也以主动积极的态度看待开源,争取回馈社区。我们积极培养技术专家,参与社区建设,输出技术贡献;这些帮助我们夯实了大数据的底座。
4. 数据生产力方法论
数据生产力建设的方法论,我们从上图的三个维度来表达。首先是算,让数据研发足够敏捷保证工程效率和质量;其次是管,让不同类型不同来源的数据融合,统一抽象对外表达;最后是用,做到低门槛,用户不需要关心底层的情况,这很符合用户的使用场景。
5. 数据生产力提升成果
6. 数据产品建设成果
除了在技术指标层面的成果衡量,数据生产力建设在业务系统中也体现了巨大的价值。上图是浙江卫视对我们在电商业务数据生产力提升的成果报道&#x