数据治理:数据集成

什么是数据治理?

数据治理是通过具有不同角色和职责的个人协作开发的框架。该框架旨在建立帮助组织实现其目标的流程、政策、程序、标准和指标。这些目标包括为业务运营提供可靠的数据、设定问责制和权威性、开发准确的分析以评估性能、遵守法规要求、保护数据、确保数据隐私以及支持数据管理生命周期。

在集成数据管理计划和框架时,创建数据治理委员会或指导委员会是一个很好的第一步。组织的治理框架应该分发给所有员工和管理层,以便每个人都了解正在发生的变化。

成功管理数据和分析应用程序所需的基本概念。他们是:

  • 关注商业价值观和组织目标
  • 就谁负责数据以及谁做出决策达成协议
  • 强调数据管理和数据沿袭的模型
  • 透明且包含道德原则的决策
  • 核心治理组件包括数据安全和风险管理
  • 提供持续的培训,并对其有效性进行监测和反馈
  • 将工作场所转变为协作文化,使用数据治理鼓励广泛参与

什么是数据集成?

数据集成是将来自多个来源的数据组合和协调成统一、连贯的格式的过程,供各种用户使用,例如:运营、分析和决策目的。

数据集成

数据集成过程由四个主要的关键组件组成:

1. 源系统

源系统(如数据库、文件系统、物联网 (IoT) 设备、媒体大陆和云数据存储)提供必须集成的原始信息。这些源系统的异质性导致数据可以是结构化的、半结构化的或非结构化的。

  1. 数据库:集中式或分布式存储库旨在存储、组织和管理结构化数据。示例包括 MySQL、PostgreSQL 和 Oracle 等关系数据库管理系统 (RDBMS)。数据通常存储在具有预定义架构的表中,以确保一致性和查询的便利性。
  2. 文件系统:在磁盘驱动器或其他存储介质上组织和存储文件和目录的分层结构。常见的文件系统包括 NTFS (Windows)、APFS (macOS) 和 EXT4 (Linux)。数据可以是任何类型的,包括结构化、半结构化或非结构化。
  3. 物联网 (IoT) 设备:嵌入了电子设备、软件和网络连接的物理设备(传感器、执行器等)。IoT 设备收集、处理和传输数据,实现实时监控和控制。IoT 设备生成的数据可以是结构化的(例如传感器读数)、半结构化的(例如设备配置)或非结构化的(例如视频片段)。
  4. 媒体存储库: 用于管理和存储各种类型的媒体文件的平台或系统。示例包括内容管理系统 (CMS) 和数字资产管理 (DAM) 系统。媒体存储库中的数据可以包括图像、视频、音频文件和文档。
  5. 云数据存储: 提供在线按需数据存储和管理的服务。流行的云数据存储平台包括 Amazon S3、Microsoft Azure Blob Storage 和 Google Cloud Storage。云存储中的数据可以从任何具有 Internet 连接的地方访问和处理。

2. 数据采集

数据采集涉及从源系统提取和收集信息。根据源系统的性质和特定要求,可以采用不同的方法。这些方法包括批处理、利用 ETL(提取、转换、加载)、ELT(提取、加载、转换)、API(应用程序编程接口)、流式处理、虚拟化、数据复制和数据共享等技术的流式处理方法。

  1. 批处理:批处理通常用于结构化数据。在此方法中,数据在一段时间内累积并批量处理。这种方法有利于大型数据集,并确保数据的一致性和完整性。
  2. 应用程序编程接口 (API):API 充当应用程序和数据源之间的通信通道。它们允许对数据进行受控和安全的访问。API 通常用于与第三方系统集成并实现数据交换。
  3. Streaming:流式处理涉及连续数据摄取和处理。它通常用于实时数据源,例如传感器网络、社交媒体源和金融市场。流技术支持根据最新数据进行即时分析和决策。
  4. 虚拟化:数据虚拟化提供数据的逻辑视图,而无需物理移动或复制数据。它支持无缝访问来自多个来源的数据,无论其位置或格式如何。虚拟化通常用于数据集成和减少数据孤岛。
  5. 数据复制: 数据复制涉及将数据从一个系统复制到另一个系统。它增强了数据可用性和冗余性。复制可以是同步的,其中实时复制数据,也可以是异步的,其中定期复制数据。
  6. 数据共享: 数据共享涉及授予授权用户或系统访问数据的权限。它促进协作,从多个角度获得洞察,并支持明智的决策。数据共享可以通过数据门户、数据湖、联邦数据库等各种机制来实现。

3. 数据存储

在获取数据时,将数据存储在存储库中对于高效访问和管理至关重要。提供各种数据存储选项,每个选项都针对特定需求量身定制。这些选项包括:

  1. 数据库管理系统 (DBMS):关系数据库管理系统 (RDBMS) 是旨在以结构化格式组织、存储和检索数据的软件系统。这些系统提供高级功能,例如数据安全性、数据完整性和事务管理。常用 RDBMS 的示例包括 MySQL、Oracle 和 PostgreSQL。MongoDB 和 Cassandra 等 NoSQL 数据库旨在存储和管理半结构化数据。它们提供灵活性和可扩展性,使其适合处理可能需要更好地适应关系模型的大量数据。
  2. 云存储服务:云存储服务在云中提供可扩展且经济高效的存储解决方案。它们提供从任何具有 Internet 连接的地方按需访问数据。流行的云存储服务包括 Amazon S3、Microsoft Azure Storage 和 Google Cloud Storage。
  3. 数据湖:数据湖是原生格式的原始和非结构化数据的大型存储库。它们通常用于大数据分析和机器学习。可以使用 Hadoop 分布式文件系统 (HDFS) 或基于云的存储服务实现数据湖。
  4. Delta Lake:Delta Lakes 是一种支持 ACID 事务和架构演变的数据湖。它们为数据工程和分析工作负载提供可靠且可扩展的数据存储解决方案。
  5. 云数据仓库:云数据仓库是基于云的数据存储解决方案,专为商业智能和分析而设计。它们为大量结构化数据提供快速的查询性能和可扩展性。示例包括 Amazon Redshift、Google BigQuery 和 Snowflake。
  6. 大数据文件:大数据文件是存储在单个文件中的大型数据集合。它们通常用于数据分析和处理任务。常见的大数据文件格式包括 Parquet、Apache Avro 和 Apache ORC。    
  7. 本地存储区域网络 (SAN):SAN 是专为数据存储而设计的高速网络。它们提供快速的数据传输速度,并为多个服务器提供集中存储。SAN 通常用于具有大量存储需求的企业环境。
  8. 网络附加存储 (NAS):NAS 设备是连接到网络并为多个客户端提供共享存储空间的文件级存储系统。它们通常用于中小型企业,并提供从各种设备轻松访问数据的功能。

选择正确的数据存储选项取决于数据大小、数据类型、性能要求、安全需求和成本注意事项等因素。组织可以使用这些存储选项的组合来满足其特定的数据管理需求。

4. 消费

这是数据集成生命周期的最后阶段,集成数据由各种应用程序、数据分析师、业务分析师、数据科学家、AI/ML 模型和业务流程使用。数据可以通过各种形式和渠道使用,包括:

  1. 操作系统:使用 API(应用程序编程接口)的操作系统可以使用集成数据来支持日常运营和决策。例如,客户关系管理 (CRM) 系统可能会使用有关客户交互、购买和偏好的数据来提供个性化体验和有针对性的营销活动。
  2. 分析:分析应用程序和工具可以使用集成数据进行数据探索、分析和报告。数据分析师和业务分析师使用这些工具从数据中识别趋势、模式和见解,这有助于为业务决策和战略提供信息。
  3. 数据共享:集成数据可以通过数据共享平台和机制与外部利益相关者(如合作伙伴、供应商和监管机构)共享。数据共享使组织能够协作和交换信息,从而改进决策和创新。
  4. Kafka:Kafka 是一个分布式流平台,可用于消费和处理实时数据。集成数据可以流式传输到 Kafka,供需要实时数据处理功能的应用程序和服务使用。
  5. AI/ML:集成数据可供 AI(人工智能)和 ML(机器学习)模型用于训练和推理。AI/ML 模型使用这些数据来学习模式并进行预测,这些预测可用于图像识别、自然语言处理和欺诈检测等任务。

使用集成数据使企业能够做出明智的决策、优化运营、改善客户体验并推动创新。通过提供统一一致的数据视图,组织可以释放其数据资产的全部潜力并获得竞争优势。

什么是数据集成架构模式?

在本节中,我们将深入研究一系列集成模式,每种模式都专为提供无缝集成解决方案而量身定制。这些模式充当结构化框架,促进不同系统之间的连接和数据交换。从广义上讲,它们分为三类:

  1. 实时数据集成
  2. 近乎实时的数据集成
  3. 批量数据集成

1. 实时数据集成

在各个行业中,实时数据摄取都是一个关键要素。让我们探索一下其应用的一些实际示例:

  • 社交媒体源显示最新的帖子、趋势和活动。
  • 智能家居使用实时数据来自动执行任务。
  • 银行使用实时数据来监控交易和投资。
  • 运输公司使用实时数据来优化交付路线。
  • 在线零售商使用实时数据来个性化购物体验。

了解实时数据摄取机制和架构对于为您的组织选择最佳方法至关重要。

事实上,有多种实时数据集成架构可供选择。其中最常用的架构是:

  1. 基于流的架构
  2. 事件驱动的集成架构
  3. Lambda 架构
  4. Kappa 架构

这些架构中的每一种都提供了其独特的优势和使用案例,以满足特定的要求和运营需求。

a. 基于流的数据集成架构

在基于流的架构中,数据流在到达时会持续提取。Apache Kafka 等工具用于实时数据收集、处理和分发。

此架构非常适合处理高速、大容量数据,同时确保数据质量和低延迟洞察。

由 Apache Kafka 提供支持的基于流的架构彻底改变了数据处理。它涉及持续数据摄取,支持实时收集、处理和分发。这种方法有助于实时数据处理,处理大量数据,并优先考虑数据质量和低延迟洞察。

下图说明了流数据集成架构中涉及的各种组件。

流式处理 - 数据集成模式

b. 事件驱动型集成架构

事件驱动型架构是适用于现代应用程序和微服务的一种高度可扩展且高效的方法。此体系结构通过在事件发生时摄取数据来响应系统内的特定事件或触发器,使系统能够对更改做出快速反应。这允许高效处理来自各种来源的大量数据。

c. Lambda 集成架构

Lambda 架构采用混合方法,巧妙地融合了批量和实时数据摄取的优势。它由两个并行数据管道组成,每个管道都有不同的用途。批处理层专业地处理历史数据,而速度层则快速处理实时数据。这种架构设计可确保低延迟洞察,即使在广泛的分布式系统中也能保持数据的准确性和一致性。

d. Kappa 数据集成架构

Kappa 架构是 Lambda 架构的简化变体,专为实时数据处理而设计。它采用单独的流处理引擎(例如 Apache Flink 或 Apache Kafka Streams)来管理历史数据和实时数据,从而简化数据摄取管道。这种方法最大限度地降低了复杂性和维护成本,同时提供快速、准确的见解。

2. 近乎实时的数据集成

在近乎实时的数据集成中,数据在生成后不久就会得到处理并可用,这对于需要及时更新数据的应用程序至关重要。几种模式用于近乎实时的数据集成,下面重点介绍了其中的一些模式:

a. 变更数据捕获 — 数据集成

变更数据捕获 (CDC) 是一种捕获源系统数据中发生的更改并将这些更改传播到目标系统的方法。

b. 数据复制 — 数据集成架构

借助 Data Replication 集成架构,两个数据库可以根据特定要求无缝高效地复制数据。此体系结构可确保目标数据库与源数据库保持同步,从而为两个系统提供最新且一致的数据。因此,复制过程非常顺利,从而可以在两个数据库之间实现有效的数据传输和同步。

c. 数据虚拟化 — 数据集成架构

在数据虚拟化中,虚拟层将不同的数据源集成到一个统一的视图中。它消除了数据复制,根据数据位置和性能等因素将查询动态路由到源系统,并提供统一的元数据层。虚拟层简化了数据管理,提高了查询性能,并促进了数据治理和高级集成方案。它使组织能够有效地利用其数据资产并释放其全部潜力。

3. 批处理:数据集成

批量数据集成涉及批量整合和传送一组消息或记录,以最大限度地减少网络流量和开销。批处理会在一段时间内收集数据,然后分批处理。在处理大量数据或处理需要大量资源时,此方法特别有用。此外,此模式还支持将主数据复制到副本存储以进行分析。这个过程的优点是传递精致的结果。传统的批处理数据集成模式是:

传统 ETL 架构 — 数据集成架构

此体系结构设计遵循传统的提取、转换和加载 (ETL) 过程。在此体系结构中,有几个组件:

  • 提取: 数据是从各种源系统获取的。
  • 变换: 数据经过转换过程以将其转换为所需的格式。
  • 负荷: 然后,转换后的数据将加载到指定的目标系统(如数据仓库)中。
增量批处理 — 数据集成架构

此体系结构通过仅关注上一个批处理周期中的新数据或修改的数据来优化处理。与完全批处理相比,这种方法提高了效率,并减轻了系统资源的负担。

微批处理 — 数据集成架构

在微批处理中,小批量数据以定期、频繁的间隔进行处理。它在传统的批处理和实时处理之间取得了平衡。与传统的批处理技术相比,这种方法显著减少了延迟,具有显著的优势。

分批批处理 — 数据集成架构

在这种分区批处理方法中,大量数据集被战略性地划分为更小、可管理的分区。然后,可以独立有效地处理这些分区,并经常利用并行性的强大功能。这种方法通过显著减少处理时间提供了引人注目的优势,使其成为处理大规模数据的有吸引力的选择。

  • 19
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

晨曦_子画

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值