首先分享这幅简化该行业的图像,稍后将进一步解释。
数据平台的历史
与许多现代技术的起源一样,企业数据管理领域始于 IBM 研究实验室。1970 年,一位 IBM 研究人员提出了数据库关系模型理论。IBM 于 1974 年创建了第一个关系数据库管理系统(RDBMS),并于 1976 年首次以Multics 关系数据存储的形式进行商业销售。核心产品提供了两项功能:表集合中的数据和操作数据的能力。
IBM 系统后来演变为 SQL、DB2 和 Oracle。Oracle于 1979 年开发,当时 CIA 是其第一个主要客户。随着时间的推移,他们不断发展 Oracle 数据生态系统,直到它成为世界上最大的数据库管理公司。在 80 年代,SQL 成为数据行业的标准语言;直到今天,情况仍然如此。
RDBMS 不太适合报告和分析,因此数据仓库(由 IBM 研究人员) 在 80 年代末发明。数据仓库旨在促进业务分析,以利用不断增长的数据量。本地数据仓库很快就会超出其存储容量,这意味着客户必须继续投资数据中心容量。这导致数据仓库成为一项昂贵的提议。
20 世纪 90 年代,数据行业经历了一段整合时期,IBM、Oracle 和 Microsoft 成为三大主要参与者。系统复杂、本地化且价格昂贵。
云的诞生
互联网和云计算重新激发了行业活力。2006年,AWS 推出。
云计算为小公司提供了利用数据仓库和大数据分析的机会。这为科技初创公司打开了大门,使他们无需建立昂贵的数据中心即可开始开发服务。这最终导致了当今市场上出现了成千上万的 SaaS 公司和数据产品。
大约在同一时间,NoSQL 系统(一种接受非结构化数据的数据库管理工具)被发明。MongoDB 成立于 2007 年。
随着数据的快速增长,Hadoop 成为第一个开源大数据处理工具。许多公司首次能够分析大量非结构化数据。这导致了数据湖的出现,数据湖是一个用于存储大量数据的存储库,传统上存储在 Amazon S3 存储桶中。
然而,Hadoop 很复杂,安全性有限,并且不支持流式传输。这导致了 2009 年 Apache Spark 的开发。Spark 更易于使用,并支持数据流等功能。Apache Spark 的发明者于 2013 年创立了 Databricks。
2012 年,Snowflake 推出。Snowflake 标志着数据仓库的一个重要变化,即计算和存储的分离。计算是指转换和组织数据所需的计算能力。存储是指数据的实际存储。这为组织带来了显着的成本和性能节省。
Snowflake 和 Databricks 将成为云时代的两家具有代表性的数据公司。
最终,公司需要数据仓库的计算能力、NoSQL 的灵活性和云的弹性。
因此,现代云数据生态系统诞生了。
现代数据生态系统
现代数据生态系统以基于云的数据仓库、大数据处理和 NoSQL 等灵活存储系统为中心。然后,可观察性、安全性、商业智能和日益增长的 AI 工作负载等服务围绕核心存储和计算功能创建生态系统。
现代数据资产高度分散。公司将使用多种工具来提取、转换、存储、可视化、保护和管理数据。
现代数据存储库的一个流行愿景是数据湖屋,这是一种集成了数据湖和数据仓库最佳特性的架构。Snowflake 和 Databricks 正在尝试实现这一愿景。
近年来,出现了许多新兴数据架构。它们都是为了实现多年前 RDBMS 的同一个愿景而努力:实现统一的数据存储,以实现自动化决策。
有了它,让我们深入了解现代数据生态系统。
数据生态系统
首先我想说的是,行业的碎片化使得将空间简化为简单的图形变得具有挑战性。例如,数据集成和编排被忽略了,但它们是行业的重要组成部分。在我看来,这些让步对于正确简化行业是必要的。要全面了解该行业,请查看Matt Turck 的景观。
另一个重要的免责声明是这些部分之间的界限模糊。提取和处理混合在一起。集成贯穿整个数据处理过程。安全性、可观察性和治理共同进行数据管理。数据湖、仓库和数据库之间的数据存储变得越来越模糊。
最后,许多公司都完成了流程中的许多步骤。例如,Snowflake 和 Databricks 都提供准备、存储、数据管理和应用程序服务。Datadog 提供安全性、可观察性和治理。此图旨在简化行业,它并不是每个步骤中公司的全方位视图。
这幅图旨在作为可视化行业的思维模型。该思维模型具有灵活性。
1. 数据简介
如今,数据可以以多种格式进行测量和获取。从本质上讲,数据以 1 和 0 的形式存储。在半导体层面,这就是内存的工作方式。每个晶体管都表示为 1 或 0。在更高级别,数据可以存储为整数、浮点数、字符、字符串、数组或日期/时间。还有其他一些格式,但这些是主要的数据类型。
从本质上讲,所有结构化数据都归结为这些格式。结构化数据(例如 SQL 数据库)具有预定义的数据类型。例如,列将被预定义为整数。只有整数数据类型才能存储在这些列中。
非结构化数据是没有预定义结构的数据。这包括文本、BLOB 数据(例如图像或视频)、二进制形式的原始数据或 XML(一种表示非结构化数据的语言)。非结构化数据占生成数据的80-90% ,并且这个数字还在增长。最后,半结构化数据没有预定义的数据模型,但有一些定义数据对象和数组的规则。JSON 是最常见的半结构化数据格式。
2. 资料来源及准备
由于生成的数据种类繁多,来源也多种多样。常见的数据源包括企业应用程序、Excel 表、SQL 数据库、网页、API 和 IoT 传感器。然后需要将这些数据导入存储。
提取 是该流程的第一步,可以将来自各种来源的数据导入数据平台。提取有两种类型:批处理和流式传输。批处理定期收集数据并将其加载到存储中。流式传输是实时处理,在创建数据后立即加载数据。流行的工具包括 Confluent、Apache Kafka、Fivetran 和 StreamSets。
然后进行处理,包括将数据转换为存储格式。Dbt 是一种流行的转换工具。Databricks 既可以进行提取,也可以进行处理,专门用于大数据处理。
这引出了一个重要的概念:ETL(提取-转换-加载)与 ELT(提取-加载-转换)。传统上,为了节省资金,公司会转换数据(计算),然后将其加载到数据仓库(存储)中。现在,基于云的数据仓库和数据湖将存储和计算分开,因此可以在存储层内经济高效地进行转换。ELT 让数据工程师可以自由地根据自己的特定需求开发转换。
最后,我将数据集成纳入 Prep 类别,尽管它实际上是在整个生命周期中完成的。
集成是将数据组合成统一格式的过程。这也包括转换。编排包括围绕数据流调度、管理和监控过程的各种工具。数据管道是编排的一个子部分。管道定义了数据在源之间传输的方式,可能涉及提取、转换和分析。
我希望您能理解本节中术语的定义有多么复杂。不同的术语用于定义相同的过程,但存在细微的差别。
需要理解的重要部分是,数据在存储和分析之前必须进行组织和转换。
3. 存储
存储是现代数据资产的核心。大多数备受关注的公司:Snowflake、MongoDB、Databricks、Azure、AWS、GCP 都将其作为数据战略的支柱,并围绕它建立了生态系统。
处理后,数据流取决于特定公司的架构。一种流行的架构是将所有数据存储在数据湖中。这是一个无组织数据的存储,很可能是 AWS、Azure 或 GCP 的云存储。然后,数据被转换并添加到特定数据库,通常用于事务工作。最后,所有这些数据库都在数据仓库中进行管理,通常用于提高商业智能效率。
数据仓库/Lakehouse:
数据仓库是现代数据资产的中心。可以将其视为数据管理的中央存储库。原始数据被转换为可以在数据仓库中组织的形式。然后,从数据仓库中提取数据以用于 AI/ML 工作流、商业智能和面向客户的应用程序(例如网站)。
数据仓库可以位于本地或云端。基于云的数据仓库是全球最热门的市场之一。主要有五个参与者:Snowflake、Databricks、Google BigQuery、Amazon Redshift 和 Microsoft Synapse*(Synapse 是 Microsoft 的数据仓库,但 Microsoft 正在转向将 Fabric 作为其主要产品)。
传统上,数据湖存储所有类型的数据,而数据仓库仅存储结构化数据。然而,随着数据仓库开始支持非结构化数据,这些界限正变得模糊。这导致了Databricks 大力推广的数据湖屋的出现。
Lakehouse 的愿景是消除对数据库和数据仓库的需求。您可以“简单地”将数据存储在数据湖中,并省去许多不必要的中间步骤。很少有企业能够实现这一愿景。
关系数据库:
关系数据库(或 SQL 数据库)是最常见的数据库类型。它是包含结构化数据且由通用变量关联的表的集合。
Oracle 是世界上最大的关系数据库管理系统 (RDBMS)。其次是 MySQL、Microsoft SQL Server 和 PostgreSQL(一种开源替代方案)。
非关系数据库:
或者说,非关系数据库或 NoSQL 数据库是数据不相关的数据库。
NoSQL 数据库主要存储非结构化数据,例如传感器数据、网络日志、媒体、音频等。
NoSQL 数据库主要有四种类型:键值数据库、文档数据库、宽列数据库和图形数据库。
最受欢迎的是MongoDB ,它是一个文档数据库。数据存储在 JSON 文件(半结构化)中,具有两个变量:一个键和一个值。
数据湖:
如前所述,数据湖是公司所有数据的存储。这通常是非结构化数据,存储在云对象存储中。其中最常见的是 Amazon S3,一种简单的存储服务。Microsoft 有 BLOB 存储,GCP 有 Google Cloud Storage。
我们的愿景是让数据湖成为您所需的唯一数据源;然而,我对近期的这一愿景持怀疑态度。
4. 应用
在本节中,我将应用程序视为数据的任何用例。我不会花太多时间在这上面,因为每个用例都可以单独成一个部分。
AI/ML 是目前最流行的用例。我认为该图很好地直观地展示了 AI 数据流。AI 模型不断与数据湖和数据仓库中的数据存储进行交互。
该图还显示了商业智能,它通常直接从数据仓库中提取数据,因为它们最初的设计目的是促进 BI 工作负载。
然后,您可以直观地看到数据如何流向网站、商业应用程序、应用程序以及任何其他数据端点。
5.数据管理
数据管理可能不是本部分的合适标题,但我将安全性、可观察性和治理纳入本部分。这些工具对企业来说绝对至关重要。它们的开发也极具挑战性。由于任务的挑战性,很少有真正好的治理工具。
这就是为什么它如此具有挑战性:
企业将数据存储在 SQL 数据库、NoSQL 数据库、数据湖、数据仓库、应用程序、excel 表格、电子邮件和 word 文档中。这些可以是本地的,也可以是云端的,通常两者都有。然后,他们不断从各种来源获得数据。这些数据以不同的格式存储在不同的系统中,可能已有一年到二十年的历史。
开发一种可以追踪和管理所有数据的工具非常具有挑战性。
因为这对公司来说是一个非常重要的挑战,所以对于大数据提供商来说这也是有利可图的,这就是他们都在开发安全和治理工具的原因。
数据管理
安全性、可观察性和治理紧密相连,因此我将把它们放在一个部分中。总体目标是确保组织知道他们拥有哪些数据、谁有权访问这些数据以及这些数据不会受到网络攻击。这三种工具紧密配合,以实现这些目标。
可观察性是监控和测量数据系统的健康、可靠性和安全性的过程。Datadog、Dynatrace 和 New Relic 是三家最大的可观察性提供商。治理是管理数据以确保数据安全性和合规性的过程。它涉及设置数据存储和访问策略。安全性是保护组织中数据的过程。它包括防病毒、防火墙、加密、VPN、身份和访问管理、密钥管理。大型提供商包括 Crowdstrike、Palo Alto Networks 和 Fortinet。
最大的数据公司位于哪里?
本文的目标之一是清晰地展示热门数据公司在生态系统中的位置。为了简洁起见,我不会深入描述每家公司的产品,只是简单地展示它们在生态系统中的位置。我还要指出的是,本文不讨论产品质量、功能丰富度或产品收入;只是讨论产品的可用性。
首先从云计算公司开始,因为它们提供最广泛的数据:
亚马逊
他们的服务涵盖了整个数据价值链。
按市场份额来看,S3 是领先的对象存储,并且提供跨存储领域的解决方案。
他们在 AI/ML 领域落后于其他云提供商,看看他们的产品如何发展将会很有趣。
另一个弱点是缺乏统一的安全解决方案和统一的治理解决方案。
据我观察,他们选择合作伙伴优先战略,支持 Crowdstrike 和 Datadog 等云合作伙伴,而不是优先考虑第一方产品。
微软
微软还覆盖了整个数据价值链。
对于存储:他们拥有排名前五的数据仓库产品、全球第二大关系数据库系统以及具有竞争力的 NoSQL 产品。
他们还有用于安全性、可观察性和治理的产品。
除此之外,他们还在 Azure OpenAI、Power Bi 和 Copilot 中拥有领先的 AI 和分析工具(正如所宣传的那样)。
他们的数据生态系统没有明显的弱点,数据业务每年创造的收入估计为200亿美元。
谷歌
多年来,谷歌一直是全球最具创新力的数据公司之一。
他们为数据处理中的每个主要步骤提供服务。
他们的目标是成为数据和人工智能的云;直到今年,他们一直在出色地实现这一愿景。
尽管增长放缓,GCP 每年仍以 20% 以上的速度增长。
他们的发明对人工智能创新至关重要,并准备在未来的数据中发挥重要作用。
他们继续扩展其平台,使其像其他数据公司一样具有扩张性,并在过去 5 年中收购了 Looker 和 Mandiant。
甲骨文
40 年来,Oracle 一直是一家领先的数据公司。
尽管 Oracle 被视为传统数据提供商,但他们确实拥有令人印象深刻的产品组合。
他们提供涵盖整个数据价值链的产品。
他们的大部分业务仍在本地进行,并且拥有庞大的客户群来推销他们的云服务。
Oracle 在所有关系数据库管理系统中占有最高的市场份额。
随着数据服务融入公司生态系统,Oracle 很可能在可预见的未来继续成为数据市场的重要参与者。
Snowflake
Snowflake 的核心业务是数据仓库,但他们正在积极扩展其产品范围。
正如 Frank Slootman 所说:
我们一直在努力工作......提供大量功能来支持这些平台和所有这些不同的方向。
安全和治理为 Snowflake Horizon 提供了重要的市场扩展。
随着他们继续为非结构化数据提供更多支持,他们使 Snowflake 能够管理组织的所有存储需求。
我们还将继续看到安全、治理和 AI/ML 方面的更多功能增强。
在分散的数据行业中,Snowflake 与任何纯数据平台一样,都具有成功的先决条件。
Databricks
Databricks 围绕 Apache Spark 构建,用于大数据处理并支持将实时数据传输到数据平台。
随后,Databricks 围绕实现 ML/AI 的端端数据流构建了一个生态系统。
现在,Databricks 与 Snowflake 和云提供商竞争,以成为企业的中央数据提供商。
他们提供的大部分产品是为开源工具提供托管服务。
然后,Databricks 成为将所有这些工具集成到其中的中央数据平台。
如果他们决定进行 IPO,这将成为有史以来最大的科技 IPO 之一。
Datadog
Datadog 最初的产品是云基础设施监控,旨在检测云操作中的异常。
从那时起,他们已经扩展到提供安全性、可观察性和治理领域的 30 多种产品。
他们的目标是主导云的安全和治理层。
他们所构建的平台非常广阔,而且他们的营销工作也做得非常出色。
Palantir
Palantir是一家融入数据价值链的有趣的公司。
与其他数据供应商相比,他们大多在自己的领域竞争。他们提供从数据到位于存储层之上的应用程序的端到端数据解决方案。
他们首先将数据集成到一个统一层中。模型开发在此基础上进行。然后,名为本体的数据组织层将反映公司的数据资产。从这里开始,构建工作流、可视化和应用程序以做出业务决策。
行业生命周期
在过去的 20 年里,云原生平台已经成为行业标准,随着企业试图让大数据变得有用和安全,我们看到数据行业的大规模扩张。
我们行业目前处于这样一个阶段:市场上有成千上万种数据产品。对我来说,了解所有这些产品是件难事。从我帮助企业部署数据解决方案的经验来看,这对 IT 专业人员来说也是难事。
Matt Turck每年都会发布一份出色的数据格局概述。我希望这能描绘出这个行业多么令人难以置信的分散。
从长远来看,大多数行业都趋向于整合。在我看来,数据领域将趋向于数据平台。我的理由是基于行业的生命周期。随着行业的成熟,竞争的标准从功能性转变为可靠性、便利性、价格(商品化)。
在过去十年中,功能性一直是决策的标准。现在开始趋向于可靠性和便利性。这就是数据公司如此大力投资成为平台的原因。
为了达到这个目标,我们将会看到大量的合并、收购和公司倒闭。