数据湖数据仓库数据集市_您的数据湖足够开放吗？要注意什么

最新推荐文章于 2024-04-05 13:52:03 发布

cxq8989

最新推荐文章于 2024-04-05 13:52:03 发布

阅读量165

点赞数

文章标签：数据仓库大数据编程语言 python 人工智能

原文链接：https://www.infoworld.com/article/3534516/is-your-data-lake-open-enough-what-to-watch-out-for.html

版权

数据湖数据仓库数据集市

数据湖是一个系统或存储库，它以原始格式存储数据以及转换后的可信数据集，并提供对这些数据的编程访问和基于SQL的访问，以执行各种分析任务，例如数据探索，交互式分析和机器学习。存储在数据湖中的数据可以包括来自关系数据库的结构化数据（行和列），半结构化数据（CSV，日志，XML，JSON），非结构化数据（电子邮件，文档，PDF）和二进制数据（图像，音频视频）。

数据湖的挑战不会陷入专有格式或系统中。此锁定限制了将数据移入和移出以供其他用途或使用其他工具处理数据的能力，并且还可以将数据湖绑定到单个云环境。这就是为什么企业应该努力建立开放数据湖的原因，其中数据以开放格式存储并通过基于标准的开放接口进行访问。坚持开放的哲学应该渗透到系统的每个方面，包括数据存储，数据管理，数据处理，操作，数据访问，治理和安全性。

[ 也在InfoWorld上：深度学习与机器学习：理解差异 ]

开放格式是一种基于底层开放标准的格式，它是通过公共的，社区驱动的过程开发和共享的，没有特定于供应商的专有扩展。例如，开放数据格式是独立于平台的机器可读数据格式，例如ORC或Parquet，其规范已发布到社区，因此任何组织都可以创建工具和应用程序以读取该格式的数据。

典型的数据湖具有以下功能：

数据提取和存储
数据处理和对连续数据工程的支持
数据访问和消费
数据治理，包括发现性，安全性和合规性
基础设施和运营

在以下各节中，我们将描述每种功能的开放性要求。

数据提取和存储

开放的数据湖从诸如应用程序，数据库，数据仓库和实时流之类的源中提取数据。它将数据格式化并存储为开放数据格式，例如ORC和Parquet，它是独立于平台，机器可读的，针对快速访问和分析进行了优化，并且可以不受限制地提供给消费者使用，而不会妨碍重复使用该信息。

开放数据湖支持基于拉式和基于推式的数据提取。它支持通过批处理数据管道进行基于拉取的提取，并通过流处理来支持基于推送的提取。对于这两种类型的数据摄取，开放数据湖都支持用于编写数据转换的开放标准，例如SQL和Apache Spark 。对于批处理数据管道，它支持对湖中的数据集进行行级插入和更新（UPSERT）。具有快照隔离功能（更常见的是ACID语义）的Upsert功能极大地简化了任务，与重写数据分区或整个数据集相反。

开放数据湖的接收功能可确保零数据丢失，并且一次写入或一次写入，处理架构可变性，以最优化的数据格式写入正确的分区，并提供重新写入数据的能力。需要。

数据处理和对连续数据工程的支持

开放数据湖以标准化的开放格式存储来自各种数据源的原始数据。但是，诸如数据探索，交互式分析和机器学习之类的用例要求对原始数据进行处理，以创建用例驱动的受信任数据集。对于数据探索和机器学习用例，用户不断优化数据集以满足其分析需求。因此，每个数据湖实施都应使用户能够在数据工程和用例（例如交互式分析和机器学习）之间进行迭代。可以将其视为连续数据工程，它涉及编写，监视和调试数据管道的交互功能。在开放数据湖中，这些管道是使用标准接口和开放源代码工具（例如SQL，Python，Apache Spark和Apache Hive）编写的。

数据访问和消费

数据湖最明显的结果就是它启用的用例类型。无论用例是数据探索，交互式分析还是机器学习，访问数据都是至关重要的。可以通过SQL或Python，R和Scala等编程语言来访问数据。尽管SQL是交互式分析的规范，但程序语言用于机器学习和深度学习等更高级的应用程序。

开放数据湖通过不带专有扩展的基于标准SQL实现支持数据访问。它使外部工具能够通过ODBC和JDBC等标准访问该数据。此外，开放的数据湖支持通过标准编程语言（例如R，Python和Scala）以及用于数值计算和机器学习的标准库（例如TensorFlow，Keras，PyTorch，Apache Spark MLlib，MXNet和Scikit）以编程方式访问数据-学习。

数据治理–可发现性，安全性和合规性

如果很好地实施数据提取和访问，则可以使数据以民主化的方式广泛地提供给用户。当多个团队开始访问数据时，数据架构师需要对治理，安全性和合规性进行监督。

数据发现

数据本身很难找到和理解，而且并不总是可信赖的。用户需要能够发现和分析数据集完整性的功能，然后才能信任自己的用例。数据目录通过不同的机制丰富了元数据，将其用于记录数据集，并支持搜索界面以帮助发现。

由于第一步是发现所需的数据集，因此至关重要的是，将元数据提供给最终用户以进行探索，查看数据所在的位置及其包含的内容，并确定其是否对回答特定问题有用。发现包括数据分析功能，该功能支持对数据集进行交互式预览，以使您对格式，标准化，标签，数据形状等有所了解。

开放的数据湖应具有开放的元数据存储库。例如，Apache Hive元数据存储库是一个开放的存储库，可防止供应商锁定元数据。

安全

越来越多的数据可访问性要求数据湖支持强大的访问控制和安全功能。要开放，数据湖应该通过非专有的安全和访问控制API来做到这一点。例如，与开放源代码框架（例如Apache Ranger和Apache Sentry）的深度集成可以促进表级，行级和列级的粒度安全。这使管理员可以授予对企业目录（如Active Directory）中已定义的用户角色的权限。通过基于开放源代码框架的访问控制，开放数据湖可避免由于专有安全性实施而导致的供应商锁定。

合规

新的或扩展的数据隐私法规，例如GDPR和CCPA，围绕“擦除权”和“被遗忘权”提出了新要求。这些规则支配着消费者关于其数据的权利，并对违规行为处以严厉的经济处罚（高达全球营业额的4％），因此绝对不能忽视它们。因此，删除特定数据子集而不中断数据管理过程的能力至关重要。开放数据湖通过开放格式和开放元数据存储库支持此功能。通过这种方式，它们可以使供应商不可知的解决方案满足合规性需求。

基础设施和运营

无论数据湖是部署在云中还是内部部署，每个云提供商都具有特定的实施方案来配置，配置，监视和管理数据湖及其所需的资源。开放的数据湖与云无关，并且可在任何云本地环境（包括公共云和私有云）中移植。从经济学，安全性，治理和敏捷性的角度来看，这使管理员可以利用公共云和私有云的优势。

[ 通过InfoWorld Daily新闻通讯了解软件开发，云计算，数据分析和机器学习方面的最新发展 ]

开放创新

数据量，速度和种类的增加，再加上新类型的分析和机器学习，使得数据湖成为更传统数据仓库的必要补充。数据仓库主要存在于专有格式，专有SQL扩展和专有元数据存储库的世界中，并且缺乏对数据的编程访问。数据湖不需要遵循这种专有路径，这会导致创新受限和成本上升。精心设计的开放式数据湖提供了可靠的，面向未来的数据管理系统，可满足各种数据处理需求，包括数据探索，交互式分析和机器学习。

阿希什Thusoo是联合创始人兼首席执行官Qubole 。 在与他人共同创立Qubole之前，Ashish负责管理Facebook的数据基础架构团队。 在他的领导下，Facebook数据基础架构团队构建了世界上最大的数据处理和分析平台之一，并创建了一系列工具，技术和模板，这些工具，技术和模板已在当今整个行业中使用。

新技术论坛提供了一个以前所未有的深度和广度探索和讨论新兴企业技术的场所。 选择是主观的，是基于我们选择的技术，我们认为这些技术对InfoWorld读者来说是重要的，也是他们最感兴趣的。 InfoWorld不接受发布的营销担保，并保留编辑所有贡献内容的权利。 将所有查询发送到 newtechforum@infoworld.com 。