数据驱动型企业_为什么数据驱动型企业需要数据目录

最新推荐文章于 2023-10-29 09:59:25 发布

cxq8989

最新推荐文章于 2023-10-29 09:59:25 发布

阅读量236

点赞数

文章标签：数据库大数据编程语言 python 机器学习

原文链接：https://www.infoworld.com/article/3512828/why-data-driven-businesses-need-a-data-catalog.html

版权

数据驱动型企业

关系数据库，数据湖和NoSQL数据存储在插入，更新，查询，搜索和处理数据方面功能强大。但是使用数据管理平台具有讽刺意味的是，它们通常不提供健壮的工具或用户界面来共享其中的内容。它们更像是数据仓库。您知道内部有有价值的数据，但是没有简单的方法可以从外部进行评估。

业务挑战是处理大量数据仓库：多个企业数据库，较小的数据存储区，数据中心，云，应用程序，BI工具，API，电子表格和开放数据源。

[ 同样在InfoWorld上：如何为您的应用程序选择合适的数据库 ]

当然，您可以在关系数据库的元数据中查询表，存储过程，索引和其他数据库对象的列表，以获得目录。但这是一种耗时的方法，需要专业技术知识，并且只能从单个数据源生成基本列表。

您可以使用将逆向工程数据模型或提供导航元数据的工具。但是这些工具通常是为技术人员设计的，主要用于审计，记录或分析数据库。

换句话说，这些查询数据库内容的方法和提取数据库元数据的工具不足以满足当今数据驱动的业务需求，原因有以下几个：

这些技术需要太多的专业技术知识，不太可能被技术含量较低的最终用户使用。
对于拥有多个大数据数据库，不同数据库技术并运行混合云的企业而言，这些方法太过手工。
这些方法对于想要合作工作或对原始数据集和派生数据集进行机器学习实验的数据科学家或公民数据科学家而言，并不是特别有用。
审计数据库元数据的策略使数据管理团队难以进行主动的数据治理。

[ 也在InfoWorld上：人工智能，机器学习和深度学习：您需要知道的一切 ]

组织数据资产的单一事实来源

随着组织扩展大数据平台，在混合云中运行，对数据科学和机器学习程序进行投资以及赞助数据驱动的组织行为，数据目录已经存在了一段时间，并在今天变得更具战略意义。

了解数据目录的第一个概念是它们是整个组织在数据源周围学习和协作的工具。它们对于试图变得更加数据驱动的组织，数据科学家尝试机器学习的组织以及将分析嵌入到面向客户的应用程序的组织而言非常重要。

数据库工程师，软件开发人员和其他技术人员负责将数据目录与主要企业数据源集成在一起。它们还使用并有助于数据目录，尤其是在创建或更新数据库时。

在这方面，与企业大多数数据资产接口的数据目录是唯一的事实来源。他们帮助回答存在的数据，如何找到最佳的数据源，如何保护数据以及谁拥有专业知识。数据目录包括发现数据源，捕获有关这些源的元数据，对其进行搜索以及提供一些元数据管理功能的工具。

许多数据目录超出了结构化目录的概念。数据目录通常包括数据源，实体和对象之间的关系。大多数目录跟踪元数据的不同类别，尤其是在机密性，隐私和安全性方面。他们捕获并共享有关不同人员，部门和应用程序如何利用数据源的信息。大多数数据目录还包括用于定义数据字典的工具。一些工具捆绑包，用于分析数据，清理数据以及执行其他数据管理功能。专门的数据目录还支持主数据管理和数据沿袭功能或与之交互。

[ 也在InfoWorld上：深度学习与机器学习：理解差异 ]

数据目录产品和服务

市场上充满了数据目录工具和平台。一些产品源自其他基础架构和企业数据管理功能。其他代表了新一代的功能，并专注于易用性，协作和机器学习差异化因素。当然，选择将取决于规模，用户体验，数据科学策略，数据体系结构和其他组织要求。

这是数据目录产品的样本：

Azure数据目录和AWS Glue是内置在公共云平台中的数据目录服务。
许多数据集成平台都具有数据分类功能，包括Informatica企业数据目录， Talend数据目录， SAP Data Hub和IBM Infosphere Information Governance Catalog 。
一些数据目录专为大数据平台和混合云而设计，例如Cloudera Data Platform和InfoWorks DataFoundry ，它们支持数据操作和编排。
没有与机器学习能力，包括单机平台的Unifi数据目录， Alation数据目录， Collibra目录，水线数据，以及IBM沃森知识目录。
主数据管理工具（例如Stibo Systems和Reltio）以及客户数据平台（例如Arm Treasure Data）也可以用作数据目录。

[ 也在InfoWorld上：人工智能可以真正为您的业务做（以及不能做的事情） ]

机器学习功能推动洞察力和实验

基础知识是使数据发现自动化，能够搜索存储库并提供协作工具的数据目录。更高级的数据目录包括机器学习，自然语言处理和低代码实现的功能。

机器学习功能根据平台而有几种形式。例如， Unifi有一个内置的推荐引擎，该引擎可以审查人们如何使用，加入和标记主要数据集和派生数据集。当其他最终用户查询相似的数据集和模式时，它会捕获利用率指标并使用机器学习来提出建议。 Unifi还使用机器学习算法来分析数据，识别敏感的个人身份信息并标记数据源。

Collibra正在使用机器学习来帮助数据管理员对数据进行分类。自动数据分类可以分析新数据集，并与40个现成的分类相匹配，例如地址，财务信息和产品标识符。

Waterline Data拥有获得专利的指纹识别技术，可自动发现，分类和管理企业数据。他们的重点领域之一是识别和标记敏感数据；他们声称将标记所需的时间减少了80％。

不同的平台在数据处理方面具有不同的策略和技术能力。一些仅在数据目录和元数据级别起作用，而其他一些则具有扩展的数据准备，集成，清理和其他数据操作功能。

[ 通过InfoWorld的机器学习和分析报告时事通讯来掌握机器学习，人工智能和大数据分析的最新进展 ]

InfoWorks DataFoundry是一个企业数据操作和编排系统，与机器学习算法直接集成。它具有低代码的可视化编程界面，使最终用户可以将数据与机器学习算法（例如k均值聚类和随机森林分类）连接起来。

我们正处于主动平台的早期阶段，例如为拥有不断增长的数据资产的企业提供治理，运营能力和发现工具的数据目录。随着组织从数据和分析中获得更多的商业价值，将更加需要扩展和管理数据实践。机器学习功能可能是不同数据目录平台竞争的领域之一。

翻译自: https://www.infoworld.com/article/3512828/why-data-driven-businesses-need-a-data-catalog.html

数据驱动型企业

cxq8989

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据驱动型企业_为什么数据驱动型企业需要数据目录

数据驱动型企业关系数据库，数据湖和NoSQL数据存储在插入，更新，查询，搜索和处理数据方面功能强大。但是使用数据管理平台具有讽刺意味的是，它们通常不提供健壮的工具或用户界面来共享其中的内容。它们更像是数据仓库。您知道内部有有价值的数据，但是没有简单的方法可以从外部进行评估。业务挑战是处理大量数据仓库：多个企业数据库，较小的数据存储区，数据中心，云，应用程序，BI工具，API，电子表...
复制链接

扫一扫