大数据独角兽Databricks凭什么估值280亿美元?

2021年是大数据开源项目Hadoop的第15年以及Spark的第12年。此前已经出现了不少基于Hadoop的大数据独角兽,例如Hortonworks和Cloudera。不过,这些基于Hadoop的大数据独角兽们并未实现业界的期待,几家上市公司均出现了大幅业绩下滑,2018年Hortonworks和Cloudera宣布合并,抱团取暖。

2021年2月,由Apache Spark初始成员创立的大数据初创公司Databricks宣布已完成 10 亿美元G轮融资,公司估值高达280亿美元。2019年10月,Databricks完成F轮融资时,估值为62亿美元,一年后公司估值即飙升近5倍。而Databricks的G轮投资机构中有AWS、Salesforce的风险投资基金Salesforce Ventures、谷歌母公司的风险投资公司Capital G等以及参加过早前投资的微软等多家投资方。

Databricks受到追捧,与其产品和技术的关系密不可分。从根本上来说,Spark与Hadoop本是相互依存关系——Hadoop为分布式大数据存储技术,而Spark是对存储的分布式大数据进行处理的技术或者说是面向大数据处理的统一分析引擎。Spark开源技术栈中提供了Spark SQL结构化数据处理、Spark Streaming实时计算、MLlib机器学习库、GraphX图形计算等组件,其中Spark SQL可直接查询Hive、HBase等外部数据源中的数据、MLlib是一个大名鼎鼎的开源机器学习库、GraphX更是著名的分布式图处理框架。

简单理解,Hadoop并不能挖掘和发挥大数据的价值,而Spark则是具备完整技术生态的统一分析引擎,同时Spark支持基于Hadoop Yarn、Apache Mesos以及时下最流行的Kubernetes等集群管理器,可运行在广泛的计算平台上,以及部署在企业内部或在公有云之上。简单理解,Spark解决了Hadoop生态分裂的问题,通过统一数据分析平台让大数据分析变得简单。Apache Spark官网对Spark的一句话介绍,即为“光速般的统一分析引擎”。

Databricks诞生于2013年,创始人来自Apache Spark的创始团队,包括加州大学伯克利分校的专家学者。Databricks以Apache Spark开源技术为基础,创建了一系列蓬勃发展的开源项目,包括Delta Lake、MLflow、Koalas等。截止2020年底,Databricks已经建立了一家拥有1500多名员工的公司,为数千个数据团队提供数据分析、数据工程、数据科学和人工智能方面的帮助。

2020年初,Databricks发表了一篇博客文章,分析了一直观察到的一个趋势:向Lakehouse架构(湖仓一体,即数据湖技术与数据仓库技术结合为一体)迈进。该体系结构基于开放架构,把构建在低成本云对象存储之上的数据湖的灵活性与 ACID 事务、数据模式(Schema)强制执行和数据仓库相关的性能结合起来。2019年,Databricks推出了Lakehouse的关键开源技术Delta Lake;2020年6月,Databricks宣布收购以色列初创公司Redash并基于其技术推出了Lakehouse关键开源技术Delta Engine。2020年,Delta Lake、Apache Spark和Databricks统一分析平台的进步,不断提高了Lakehouse架构的功能和性能。

(湖仓一体的技术优势)

湖仓一体,简单理解就是把面向企业的数据仓库技术与低廉的数据湖存储技术相结合。数据湖主要是公有云上提供的一种海量的结构化与非结构化数据的存储技术,而数据仓库主要是关系型数据的结构化数据存储与分析技术。两种技术各有其优缺点,当下企业往往分别建数据湖与数据仓库,而如果能够二者合一则可以同时获得两种技术的优点。当然,湖仓一体技术本身并不简单,整个2020年Databricks都在填补Lakehouse的技术空白。

2020年底,Gartner发布了云数据库管理系统的魔力象限(MQ),Databricks进入了远见者象限,这也是Databricks首次被纳入与数据库相关的Gartner魔力象限中。

Databricks对Lakehouse架构的追求,通过一种新的系统设计,直接在云数据湖的灵活、低成本存储上实现了与数据仓库类似的数据结构和数据管理功能。通过将两种体系结构的优点结合在一起,企业可以在同一平台上同时运行传统分析和数据科学/ML工作负载。这大幅减少了在数据湖和下游数据仓库之间不断移动数据的复杂数据操作,而且还消除了数据孤岛,让数据团队就可以在一个真实的数据源上进行操作。

Databricks的统一数据分析平台最大的优势在于能够在一个地方大规模地运行数据处理和机器学习工作负载。Databricks在2020年欧洲数据+AI峰会上宣布推出SQL Analytics,大幅扩展了数据管理和分析能力。SQL Analytics为Databricks客户提供了一流的体验,可以直接在数据湖上执行BI和SQL工作负载。该服务让数据分析师可以使用熟悉的BI工具查询数据湖和提高查询性能。Databricks表示,其技术可以为分析工作负载提供比传统云数据仓库高出9倍的性价比。

Databricks还创建了MLflow,这是一个开源的机器学习平台,可以让团队可靠地构建和生产ML机器学习应用程序。Databricks表示,随着每月超过250万次的下载,来自100个组织的200个贡献者以及4倍的同比增长,MLflow 已经成为最广泛使用的开源机器学习平台,这个平台可以跨不同的机器学习库、语言、云和本地环境。如今,MLflow构成了Databricks机器学习工作流能力的基础,以帮助确保客户能够获得最开放和最灵活的工具集。

2020年,Databricks还入选了Gartner的2020年《数据科学和机器学习平台魔力象限》,并进入了领导者象限。

Databricks是仅有几家同时被纳入两份Gartner魔力象限报告(云数据库管理系统与数据科学和机器学习)的厂商之一,也是唯一一家通过统一平台实现这一目标的厂商。Databricks让客户可以通过一个简单、开放的分析、数据科学和机器学习平台,更好、更快地利用数据来推动创新,这个平台将团队、流程和技术结合在一起。

除了在技术上不断推进统一分析平台外,Databricks与微软和AWS的紧密合作是推高其估值的重要原因,特别是与微软的合作。Databricks和微软合作创建Azure Databricks始于约4年前,在此期间Azure Databricks与Azure Synapse等其它Azure服务一起发展。建立在云存储上的数据湖,并不能原生地提供分析所需的所有类似数据库的功能,而如今Azure数据湖存储(ADLS)与Delta Lake相结合,Databricks、Synapse和Power BI等关键分析服务已经就绪,可以在让企业在一个地方利用数据应对BI、数据科学和数据工程的各种分析场景。

Azure Databricks通过高效的协作平台和代码优先的数据管道为数据工程师和数据科学家提供支持;Azure Synapse 为低延迟、高并发的 BI 提供了高性能的数据仓储,并与无代码/低代码开发集成在一起。两者都让分析师可以直接在数据湖中使用最常见的数据语法SQL进行分析,这极大提升了Azure的用户体验。

总的来说,Databricks是一个统一分析平台,同时与微软Azure的第一方合作为其提供了广阔的市场,而与AWS的紧密合作也为Databricks提供了丰富的客户源。大数据+统一分析+AI+云存储+开源+微软Azure/AWS,这就是Databricks高估值的成功公式。(文/宁川)

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
据人民网消息,5月26日,2018中国国际大数据产业博览会在贵州拉开帷幕,让基于大数据的技术创新和商业模式创新引发新一轮舆情关注。在此背景下,人民创投、人民网舆情数据中心联合发布《中国大数据独角兽企业TOP20榜》,推荐了大数据行业中的20家优秀独角兽企业。 这是继5月19日,人民创投、人民网舆情数据中心在“2018全球独角兽企业高峰论坛”上联合发布《中国独角兽企业价值榜》和《中国瞪羚企业价值榜》后,针对独角兽企业的又一次细分推荐。 推荐的20家大数据独角兽企业业务涉及数据采集存储、分析挖掘、流通服务、技术算法以及人工智能,分布于金融、安防、交通、物流、消费、教育、医疗等多个应用领域,如针对安防领域的商汤科技、服务于互联网金融领域的同盾科技、“医疗大数据”平台医渡云等。 据介绍,榜单由专家评委结合舆情分析系统,从数据复杂度、分析技术、应用场景等角度考察企业的核心技术和创新能力,综合投资价值、社会效应、市场前景和品牌感知等维度,对入围企业进行评价。入围企业标准为:估值在65亿人民币以上、创办时间小于10年的公司,企业尚未独立上市或被收购,非其他企业的全资企业,有公开的融资纪录;企业具备较好的投资价值,特别是有较大的成长空间;企业在模式、技术等方面具备领先性,技术密集、创新驱动,能支持国家战略或带动新业态;企业业务积极正向,没有被有关部门查处的重大违法纪录,无重大负面或争议性报道。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值