关注ITValue,看企业级最新鲜、最价值报道!
作者丨杨丽
来源丨钛媒体APP
伴随逐渐增长起来的用户市场,Databricks为国内外湖仓架构及产品解决方案的创新派们带来了一定的示范性作用。
图片来源:视觉中国
ITValue
6月底,刚刚结束的Data+AI Summit上,Databricks宣布将数据湖表格式Delta Lake的API完全开源。
进入2022年以来,无论是Snowflake发布UniStore,还是Databricks巩固Delta开源计划,都是在面对极大的市场空间前景下做出的积极决策。
相比于第一代表格式Hive,Databricks的Delta Lake和Apache Iceberg、Apache Hudi被认为新一代数据湖在开源表格式应用上的“三剑客”。对于其他企业而言,基于成熟的开源架构进行改造,使用社区发布的最佳工具,能够最大限度降低企业构建数据湖的成本,避免重复造轮子。
钛媒体App获悉,从截至2022年3月份的一份有关GitHub存储库的贡献数据来看,目前Netflix、Apple、AWS等主要基于Apache Iceberg,国内如阿里巴巴、字节跳动、蚂蚁、中移苏研、华为、腾讯等企业则主要热衷于Hudi,而对Delta Lake的贡献维护,81.3%都来自于Databricks。
事实上,三大开源项目各自有其发展的历史背景及优势特征,但相比于早在2016、2017年就已经开源的Apache项目,Delta Lake因其商业化公司Databricks的强势发力,在近些年显得格外耀眼,并且越来越引起其主要竞争对手的眼热。Cloudera、Snowflake就曾表示,Delta Lake自2019年开源(虽然是部分开源)以来,就已经吸引了一批潜在客户。此外,Iceberg和Hudi的主要创始人也于最近一年相继创立了其商业化公司,即Tabular和Onehouse。
Delta Lake的出现是本身基于湖仓架构演进而来:从最早的传统数仓(EDW),到为满足低成本存储的数据湖(Data Lake),再到如今的云原生湖仓、湖仓一体(Lakehouse),可以看到过去40年里大数据架构仍在不断演进。
那么谁能够成为当下Lakehouse架构的最早受益者?从用户侧的反馈,湖仓架构的最大短板其实不完全在于技术,如果企业对数据处理要求不高,传统的数仓就能够满足,对升级到湖仓并非迫切性需求。
但Databricks作为开源+云原生数据存储时代重要的创业代表,伴随逐渐增长起来的用户市场,仍为国内外湖仓架构及产品解决方案的创新派们带来了一定的示范性作用。
在中国市场,尽管企业对云上调用产品、管理研发资源、运维调度等需求明显,但从资金投入、人才积累以及实际应用案例的深度来看,多年以来,中国企业大数据产业基础领域的发展,始终面临着的是一个全方位激烈竞争的市场局面。
01 Delta Lake应运而生
Databricks成立于2013年的美国旧金山,由加州大学的几位教授和五位伯克利大学的博士生共同创立。其联合创始人兼首席执行官Ali Ghodsi,也是开源平台Apache Spark的创建者之一。
据了解,Ali Ghodsi从8岁起就热衷于编程,长大后攻读计算机工程专业,并获得了分布式计算领域的博士学位。2009年,他与Ion Stoica合作共同成立了Spark。后来他们又与另一支机器学习团队合作,共同推出了基于Apache Spark开源版本的商业化服务。起初,这并没有激起丝毫水花,市场几乎少有人知晓。2013年,A16z联合创始人Ben Horowitz一笔1400万美元的投资给带来了希望,Ben Horowitz鼓励他们创立一家公司