大数据技术15：大数据常见术语汇总

Java架构何哥

已于 2024-06-11 14:49:18 修改

阅读量2.1k

点赞数 23

分类专栏：大数据治理文章标签：大数据术语数据标签和数据指标数据血缘和数据地图

于 2023-12-18 19:52:29 首次发布

本文链接：https://blog.csdn.net/CSDN2497242041/article/details/135067015

版权

大数据治理专栏收录该内容

19 篇文章

订阅专栏

前言：大数据的出现带来了许多新的术语，但这些术语往往比较难以理解。因此，通过本文整理了大数据开发工程师经常会接触到的名词和概念，了解这些专有名词对于数据研发和数据分析时的人员协作及研发都有很高的作用。

一、数据中台相关

数据中台

数据中台是一套可持续“让企业的数据用起来”的机制，是一种战略选择和组织形式，是依据企业特有的业务模式和组织架构，通过有形的产品和实施方法论支撑，构建的一套持续不断把数据变成资产并服务于业务的机制。

数据中台需要具备：数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现四个核心能力，让企业员工、客户、伙伴能够方便地应用数据。

数据开发

数据开发是一整套数据加工以及加工过程管控的工具，有经验的数据开发、算法建模人员利用数据加工模块提供的功能，可以快速把数据加工成对业务有价值的形式，提供给业务使用。

数据开发模块主要面向开发人员、分析人员，提供离线、实时、算法开发工具，以及任务的管理、代码发布、运维、监控、告警等一系列集成工具。

数据体系

数据体系是数据中台的血肉，开发、管理、使用的都是数据；不同的企业因业务不同导致数据不同，但数据建设方法可以相似，数据要统一建设，数据按照贴源数据、统一数仓、标签数据、应用数据的标准统一建设。

数据资产管理

数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示，以一种更直观的方式展现企业的数据资产，提升企业的数据意识。通过数据体系建立起来的数据资产较为偏技术，业务人员比较难理解。资产管理是以企业全员更好理解的方式，把企业的数据资产展现给企业全员（需要考虑权限和安全管控）。

数据服务

数据服务就是把数据变为一种能力，通过数据服务让数据参与到业务，激活整个数据中台，数据服务是数据中台存在的价值所在。数据中台的服务模块并没有自带很多服务，而是提供快速的服务生成能力以及服务的管控、鉴权、计量等功能。

二、数据开发相关

任务（Task）

任务是对数据执行的操作的定义，示例如下：

通过数据同步节点任务，将数据从RDS同步至数仓。
通过SQL节点任务，运行SQL来进行数据的转换。

实例

实例是某个任务在某时某刻执行的一个快照。调度系统中的任务，经过调度系统、手动触发运行后，会生成一个实例。实例中会有任务的运行时间、运行状态和运行日志等信息。

例如：设置每天2:00运行Task1实例，调度系统会在每天23:30根据周期节点定义好的时间，自动生成一个快照，即Task1第二天2:00运行的实例。到第二天2:00时，如果判断上游实例已经完成，Task1实例便会如期启动运行。

依赖

任务A运行时需要使用任务B的计算结果，则任务任务A依赖于任务B，任务B则为任务A的依赖节点。

自依赖

任务计算当前任务时必须依赖此任务的上一周期实例。

输出名称

输出名称：每个任务（Task）输出的名称。它是您在单个租户（阿里云账号）内设置依赖关系时，用于连接上下游两个任务（Task）的虚拟实体。当您在设置某任务与其它任务形成上下游依赖关系时，必须根据输出名称（而不是节点名称或节点ID）来完成设置。设置完成后该任务的输出名也同时作为其下游节点的输入名称。

重跑

任务可多次运行，每次运行可称为重跑，一般在任务异常、数据有误、逻辑有变更时需要重跑任务。

补数据

当任务异常或逻辑有变更时，可对任务选择历史一段时间来进行补数据，以便修正历史数据。

分区时间

在大数据处理和存储中，分区时间（Partitioning by Time）是一种常见的数据组织策略。这种策略基于时间戳或其他与时间相关的字段将数据分成不同的部分或分区。

表分区：在关系型数据库如MySQL、Oracle以及大数据计算服务如阿里云MaxCompute中，可以对表进行时间分区。例如，根据日期或时间范围将一个大表划分为多个小的逻辑分区，每个分区包含该时间段内的所有数据记录。这样做的好处包括：

提高查询性能：查询只需要扫描涉及的时间分区，而不是整个表。

简化管理：可针对不同时间段的数据执行独立的备份、归档、删除或维护操作。

数据加载效率：新数据可以快速地按时间顺序插入到对应的分区，无需全表更新。

Hadoop HDFS 和 Spark 中的数据分区也可以采用时间作为维度，方便数据管理和查询优化。例如，在日志收集场景下，日志文件可以根据生成时间划分成每日的目录结构，便于分布式系统并行读取和处理。

流处理系统：在实时流处理框架中，数据分区也常按照时间窗口进行，例如Apache Kafka中的消息分区，并且消费者可以根据时间戳来消费特定时间段的消息。

实际操作示例

对于一个电商网站的日志数据，可能会创建按天或者按小时为单位的时间分区，比如/data/year=2024/month=03/day=12/hour=10/，这样的路径结构清晰地标明了数据所属的时间段。

在分析历史销售数据时，如果只需要分析过去一年的数据，可以直接访问相应时间分区的数据，而无需扫描全部历史数据。

总之，利用时间分区技术，可以在海量数据环境下显著提升查询效率、降低存储成本，并支持灵活的数据生命周期管理。

三、数据标准相关

数据标准

数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。通过规范约束标准代码、度量单位、字段标准、命名词典，来保障后续建模与应用过程中数据处理的一致性，从源头上保障数据的标准化生产，节约后续数据应用和处理的成本。

例如：现有注册表和登录表两张表，注册表中存储了会员ID，字段名为user_id ，登录表中也存储了会员ID，字段名为userid ，此时针对会员ID这个数据创建统一的数据标准，例如指定数据处理的标准代码、指定字段的属性要求（例如字段的数据类型、长度、默认值等）、指定数据的度量单位。创建好数据标准后，后续在建模过程中涉及到会员ID这个字段的设置时，即可直接关联此标准，以此来保障所有会员ID字段的标准统一。

命名词典(词根)

命名词典，又叫做词根，主要管理业务名词、物理表、字段的词根和词素及其标准化的中英映射。

字段标准

字段标准可理解为全局字段管理。可将多个表中含义相同但字段名不同的内容进行关联，并对该字段制定相关的取值范围、度量单位、标准代码等内容。后期字段标准发生变化时，可快速定位和变更关联的表，极大程度提升构建效率、应用效率、准确性和后期治理效果。

标准代码

表示某一字段标准的取值枚举集合，在规定的集合里取值，一般由代码值，代码描述组成一个字典项。例如：性别数据标准的标准代码内容应该为男或女。

四、数据资产管理

数据资产

由企业拥有或控制的，能够为企业带来未来经济利益的，以物理或电子的方式记录的数据资源。

数据资产管理

规划、控制和提供数据及信息资产的一组业务职能，包括开发、执行和监督有关的数据的计划、政策、方案、项目、流程、方法和程序，从而控制、保护、交付和提高数据资产的价值。

数据资产管理的八大职能中，数据标准管理、元数据管理、数据质量管理和数据安全管理等同时也属于传统数据治理的必要工作内容。数据资产管理在传统数据治理的基础上，加入了数据价值管理、数据共享管理等内容。

数据治理

是指对数据资产管理行使权力和控制的集合（规划、监督和执行）。

数据影响性分析

它能分析出数据的下游流向。当系统进行升级改造的时候，如果修改了数据结构、ETL程序等元数据信息，依赖数据的影响性分析，可以快速定位出元数据修改会影响到哪些下游系统，从而减少系统升级改造带来的风险。

数据冷热度分析

主要是对数据数据表的被使用情况进行统计，如表与ETL程序、表与分析应用、表与其他表的关系情况等，从访问频次和业务需求角度出发，进行数据冷热度分析，用图表展现表的重要性指数。

用户可以参考数据的冷热度报告，结合人工分析，对冷热度不同的数据做分层存储，以便更好的利用HDFS资源，或者评估是否对失去价值的这部分数据做下线处理，以节省存储空间。

主数据（Master Data）

是指用来描述企业核心业务实体的数据，是企业核心业务对象、交易业务的执行主体，是在整个价值链上被重复、共享应用于多个业务流程的、跨越各个业务部门和系统的、高价值的基础数据，是各业务应用和系统之间进行数据交互的基础。

从业务角度，主数据是相对“固定”的，变化缓慢。主数据是企业信息系统的神经中枢，是业务运行和决策分析的基础。常用的主数据如供应商、客户、企业组织机构和员工、产品、渠道、科目、交易方式等。

主数据管理（Master Data Management，MDM）

是一系列规则、应用和技术，用以协调和管理与企业的核心业务实体相关的系统记录数据。

主数据管理的主要内容包括如下几项：主数据相关标准及规范设计、主数据建模、主数据梳理与集成、主数据质量管理、建立灵活的主数据共享服务、建立主数据维护流程。
说明：主数据管理通过对主数据值进行控制，使得企业可以跨系统使用一致的和共享的主数据，提供来自权威数据源的协调一致的高质量主数据，降低成本和复杂度，从而支撑跨部门、跨系统数据融合应用。

数据质量管理

数据质量管理主要用来解决“数据质量现状如何，谁来改进，如何提高，怎样考核”的问题。
当谈到数据质量管理的时候，必须有一个数据质量评估的标准，有了这个标准，才能知道如何评估数据的质量，才能将数据质量量化，并知道改进的方向，以及如何评估改进后的效果。
目前业内认可的数据质量标准有如下几类：
1）准确性：描述数据是否与其对应客观实体的特征一致。
2）完整性：描述数据是否存在缺失记录或缺失字段。
3）一致性：描述同一实体同一属性的值在不同的系统中是否一致。
4）有效性：描述数据是否满足用户定义的条件或在一定的取值范围内。
5）唯一性：描述数据是否存在重复记录。
6）及时性：描述数据的产生和供应是否及时。
7）稳定性：描述数据的波动是否稳定，是否在其有效范围内。
8）连续性：描述数据的编号是否连续。
9）合理性：描述两个字段之间逻辑关系是否合理。

数据安全管理

数据安全管理是指对数据设定安全等级，按照相应国家/组织相关法案及监督要求，通过评估数据安全风险、制定数据安全管理制度规范、进行数据安全分级分类，完善数据安全管理相关技术规范，保证数据被合法合规、安全地采集、传输、存储和使用。

数据价值管理

数据价值管理是对数据内在价值的度量，可以从数据成本和数据应用价值两方面开展。

数据共享管理

数据共享管理主要是指开展数据共享和交换，实现数据内外部价值的一系列活动。数据共享管理包括数据内部共享（企业内部跨组织、部门的数据交换）、外部流通（企业之间的数据交换）、对外开放。

数据资产地图

数据资产地图为用户提供多层次、多视角的数据资产图形化呈现形式。数据资产地图让用户用最直观的方式，掌握数据资产的概况，如数据总量、每日数据增量、数据资产质量的整体状况、数据资产的分类情况、数据资产的分布情况、数据资产的冷热度排名、各个业务域及系统之间的数据流动关系等。

元数据

元数据是数据的描述数据，可以为数据说明其属性（名称、大小、数据类型等），或结构（字段、类型、长度等），或其相关数据（位于何处、拥有者、产出任务、访问权限等）。数据平台中元数据主要指库、表相关的信息，元数据管理对应的主要应用是数据地图。

数据血缘

属于元数据的一部分，用来展示数据表之间的链路关系，包含了数据的来源、加工方式、映射关系以及数据去向。

数据血缘分析

指的是获取到数据的血缘关系，以历史事实的方式记录数据的来源、处理过程等。

数据血缘分析对于用户具有重要的价值，比如当时在数据分析中发现问题数据的时候，可以依赖血缘关系，追根溯源，快速定位到问题数据的来源和加工流程，减少分析的时间和难度。

五、数据指标及标签相关

修饰词&衍生词

修饰词是对指标进行限定抽象的业务限定，修饰词归属于一种修饰词类型，比如日志域的访问终端类型，包含修饰词PC端、无线端等。衍生词用于修饰原子指标，是对于原子指标中带有计算口径的词进行了抽象定义。

原子指标

原子指标是有业务统计含义的数值型数值，通过度量加工得到，一般作口径定义存在，不具备实际物理值。

派生指标

派生指标 = 原子指标 + 修饰词 + 时间周期

衍生原子指标

衍生原子指标 = 主原子指标 + 衍生词

复合指标

复合指标由一个或多个派生指标通过计算而成。

口径

口径就是取数逻辑（如何取数的），比如要取的数是10岁以下儿童中男孩的平均身高，这就是统计的口径，一般分为技术口径和业务口径两种。

业务口径

从业务的角度制定统一的数据统计标准，往往用来说明某一数值在特定业务场景下的含义，例如新增用户数、活跃用户数。

技术口径

用来描述某一数值（字段）通过其它字段加工得到的计算逻辑。

标签是人为设定的、根据业务场景需求，对目标对象运用一定的算法得到的高度精炼的特征标识。可见标签是经过人为再加工后的结果，如网红、白富美、萝莉。对于有歧义的标签，我们内部可进行标签区分，比如：苹果，我们可以定义苹果指的是水果，苹果手机才指的是手机。

六、数仓架构相关

主题域

数仓建设的一个上层分类概念，把比较接近的业务过程或者属性接近内容划分为一个大的整体，称之为主题域。

维度

维度是度量的环境，用来反映业务的一类属性，常见的如统计日期、用户、省份、性别等。

度量

来源于业务系统中不经过加工的用于反映和描述事实的数值型数据，不带业务口径。

粒度

粒度是描述事实表中一条记录所表达的细节程度。通常粒度可以通过两种方式来表述：一种是维度属性组合所表示的细节程度；一种是所表示的具体业务含义，例如用户的充值行为，用户的私信行为等

维度表

维度表包含了事实表中指定属性的相关详细信息。

桥接表

用于存放桥接维度的关系表。

贴源层

贴源数据层 ODS（Operational Data Store，操作数据层）：对各业务系统数据进行采集、汇聚，尽可能保留原始业务流程数据，与业务系统基本保持一致，仅做简单整合、非结构化数据结构化处理或者增加标识数据日期描述信息，不做深度清洗加工。

由业务系统同步到数据仓库的原始数据，一般不经过加工。

统一数仓层 DW（Data Warehouse）

又细分为明细数据层 DWD（Data Warehouse Detail）和汇总数据层 DWS（Data Warehouse Summary），与传统数据仓库功能基本一致，对全历史业务过程数据进行建模存储。对来源于业务系统的数据进行重组织。业务系统是按照业务流程方便操作的方式来组织数据的，而统一数仓层从业务易理解的视角来重新组织，定义一致的指标、维度，各业务板块、业务域按照统一规范独立建设，从而形成统一规范的标准业务数据体系。

(1)明细层

从ods层经过ETL得到的明细数据，表示具体的事实，主要由维度和度量等构成。

(2)汇总层

由明细数据经过汇总得到的数据，主要由统计维度和指标构成。

应用层

应用数据层 ADS（Application Data Store）：按照业务的需要从统一数仓层、标签数据层抽取数据，并面向业务的特殊需要加工业务特定数据，以满足业务及性能需求，向特定应用组装应用数据。

由明细层或汇总层加工得到用来面向报表、服务、应用等使用的数据。

标签数据层 TDM（Tag Data Model）

面向对象建模，对跨业务板块、跨数据域的特定对象数据进行整合，通过 ID-Mapping 把各个业务板块、各个业务过程中的同一对象的数据打通，形成对象的全域标签体系，方便深度分析、挖掘、应用。

七、维度分析

下钻

在数据分析中常见的概念，下钻可以理解成增加维的层次，从而可以由粗粒度到细粒度来观察数据，比如对产品销售情况分析时，可以沿着时间维从年到月到日更细粒度的观察数据。从年的维度可以下钻到月的维度、日的维度等。

上卷

知道了下钻，上卷就容易理解了，它俩是相逆的操作，所以上卷可以理解为删掉维的某些层，由细粒度到粗粒度观察数据的操作或沿着维的层次向上聚合汇总数据。

八、基线运维管理相关

基线

即时间线，在基线运维场景中，通过设定几条时间线（即基线），并将线上任务关联到这些时间线上，当这些任务的实例或上游实例运行失败，或者这些实例的预计产出时间超过对应的时间线时，系统会触发报警通知给值班人员。

预警

指预警时间，表示当前基线配置的预警时间线。当基线的任务实例预计完成时间超过“预警时间”，则会发送报警类型为“基线报警”的报警。

破线

指破线时间，表示当前基线配置的破线时间线。当基线的任务实例预计完成时间超过“破线时间”，则会发送报警类型为“基线报警”的报警。

九、数据服务体系建设

数据服务

数据服务是对数据进行计算逻辑的封装（过滤查询、多维分析和算法推理等计算逻辑），生成API服务，上层数据应用可以对接数据服务API，让数据快速应用到业务场景中。

按照数据与计算逻辑封装方式的不同，数据服务可分为以下三类：

基础数据服务：它面向的对象是物理表数据，主要面向的场景包括数据查询、多维分析等，通过自定义SQL的方式实现数据中台全域物理表数据的指标获取和分析。
标签画像服务：它面向的对象是标签数据，主要面向的场景包括标签圈人、画像分析等，通过界面配置方式实现数据中台全域标签数据跨计算、存储的统一查询分析计算，加快数据应用的开发速度。
算法模型服务：它面向的对象是算法模型，主要面向的场景包括智能营销、个性化推荐和金融风控等，主要通过界面配置方式将算法模型一键部署为在线API，支撑智能应用和业务。

查询服务

查询服务通过一个标识（key）查询其所对应的内容，可以附加一些条件过滤项来满足检索要求。如常见的根据账号查询其相关的档案信息、根据商品查询其销售信息等，都属于查询服务的应用场景。

分析服务

分析服务通过各种数据统计分析的方法，对数据任意维度的数据分析挖掘，让数据分析人员快速了解数据集的特点，以支持数据化运营、分析决策等场景。常见的如BI工具、数据化运营中的路径分析、漏斗模型等，大部分是基于这种能力来构建的。

圈人服务

各行各业都会涉及广告营销场景，而如何找到对的人推送广告就成了大数据场景要解决的问题。圈人服务应运而生，通过提供人群圈选服务，帮助服务使用者从全量用户数据中基于标签组合筛选出符合指定特征的人群，并以API的形式对接上层的营销系统，从而实现营销广告的精准触达，最终达到老客户召回、休眠客户激活等运营目的。

数据服务背后的产品技术

数据服务背后的产品技术主要有5种：多样的数据服务、全生命周期管理、服务安全控制、多版本管理、审计与计量计费。

多样的数据服务

为了快速支撑不同业务对数据服务的需求，数据服务有多种生成方式，通过选取合适的生成方式，快速生成适合业务的数据服务。常见的数据服务生成方式如下：标签服务化、自定义SQL服务化、算法模型服务化、注册API服务化。

生命周期管理

对API服务提供完整的生命周期管理，可以大大降低日常维护成本，包括API服务的新建、维护、上线/下线、授权、监控等。数据服务的生命周期全链路管理主要分为以下几个阶段：服务的创建部署、服务的授权赋能、服务的运行监控、服务的更新升级、服务的到期停服下架。

服务安全控制

服务提供时，需要考虑服务的稳定性和安全性，在保障服务稳定的同时保证数据可控、范围可控等。稳定性方面主要考虑做好自动扩容、容错等相关的工作，一般采用分布式的部署机制，提高性能及可靠性。完备的服务安全防护机制包括以下方面：鉴权机制、黑白名单、申请审批。

多版本管理

服务在应用到具体场景的过程中，有必要对多版本提供支持。常见的场景有：

业务不同阶段的需求变化导致服务经常升级、回滚。
服务升级后老服务支撑的业务无法短期升级，通过多版本来支撑过渡。
蓝绿部署、灰度验证等场景的需要。

数据服务通过对服务的多版本管理，可以便捷支持切换服务多版本，同时支持蓝绿部署和灰度验证，以及业务需求的升级和回滚，有效保障服务的连续性。其中主要涉及以下两个关键点：多版本服务在线、服务路由管控。

审计与计量计费

服务授权后，需要对服务的使用情况进行审计监控。以服务为对象，统计该服务的所有调用方信息、总调用情况、成功调用次数统计、失败调用次数统计等，为后续计量计费、访问控制、流量控制提供审计数据基础。审计控制模块为服务API的调用情况提供了全链路的追踪溯源，为服务的提供方和调用方带来了极大便利，是服务管理服务监控、服务分析、服务运维等不可或缺的重要模块。
数据服务的审计功能主要包括服务API的审计列表、API调用成功记录、API调用失败记录、API调用方来源审计记录等。

十、其他

批处理(Batch processing)

批处理：批处理方式中，数据首先被存储，然后再分析。MapReduce是非常重要的批处理模型。MapReduce的核心思想是，数据首先被分为若干小数据块chunks，随后这些数据块被并行处理并以分布的方式产生中间结果，最后这些中间结果被合并产生最终结果。

尽管批量数据处理从大型机(mainframe)时代就已经存在了，但是在处理大量数据的大数据时代面前，批处理获得了更重要的意义。

批量数据处理是一种处理大量数据(如在一段时间内收集到的一堆交易数据)的有效方法。分布式计算(Hadoop)，后面会讨论，就是一种专门处理批量数据的方法。

流处理（Streaming process）

流处理：即流式处理。流式处理假设数据的潜在价值是数据的新鲜度，需要尽快处理得到结果。在这种方式下，数据以流的方式到达。在数据连续到达的过程中，由于流携带了大量数据，只有小部分的流数据被保存在有限的内存中。流处理方式用于在线应用，通常工作在秒或毫秒级别。

如果我们需要实时分析结果，那么流处理是唯一的方法。使用数据流将其输入分析工具，在生成数据的那一刻，就能够获得几乎即时的结果。流处理在欺诈检测中很有用，因为流处理允许实时检测异常。流处理的延迟通常以秒或毫秒为单位，因为在流处理中，数据在到达磁盘之前会被分析。

结构化数据

规则、完整，能够通过二维逻辑来表现的数据，严格遵循数据格式与长度规范，常见的有数据库表、Excel等二维表。

主要是关系型数据库中的数据，直接从业务系统DB抽取到贴源数据层。

半结构化数据

数据规则、完整，同样严格遵循数据格式与长度规范，但无法通过二维关系来实现，常见如JSON、XML等形式表达的复杂结构。

说明：一般是纯文本数据，以各种日志数据为主，半结构化数据保留贴源数据的同时也做结构化处理，为后续使用做准备。

非结构化数据

数据结构不规则或不完整，不方便用二维逻辑来表现，需要经过复杂的逻辑处理才能提取其中的信息内容，如办公文档、图片、图像和音视频等。

主要是图片、音频、视频，一般保留在文件系统中，由于这类数据量一般比较庞大，而且没有太多挖掘分析价值，所以贴源数据层不保留原始文件，只保留对原始数据文件的描述，比如地址、名称、类型、分辨率等。

OLTP(On-Line Transaction Processing，联机事务处理)

是专注于面向事务的任务的一类数据处理，通常涉及在数据库中插入、更新或删除少量数据，主要处理大量用户下的大量事务。

一般都是高可用的在线系统，以小的事务以及小的查询为主，评估其系统的时候，一般看其每秒执行的事务及查询的数量。

OLAP(On-Line Analytical Processing，联机分析处理)

主要通过多维的方式来对数据进行分析、查询并生成报表，有的时候也叫DSS（决策支持系统）。常用于报表分析场景，相对于 OLTP ，对准确性、事务性和实时性要求较低。

OLAP 系统的应用主要是对用户当前的数据和历史数据进行分析，帮助市场做决策，制定营销策略，主要用来执行大量的查询操作，对实时要求低。

数据湖(Data lake)

数据湖(data lake)即一个以大量原始格式保存了公司级别的数据知识库。数据湖的概念最早出现Hadoop World大会上提出的。提出者希望数据湖, 能解决数据集市面临两个。

第一，数据集市只保留了部分属性，只能解决预先定义好的问题；
第二，数据集市中反映细节的原始数据丢失了，限制了通过数据解决问题;

从解决问题的角度出发，希望有一个合适的存储来保存这些明细的、未加工的数据。

2017年,亚马逊云最早推出AWS Lake,提供一套中心化的存储构建一个数据分析、数据科学和机器学习的数据湖解决方案。与此同时，Uber推出了Hudi(Hadoop Updates and Incrementals)，最早也是被用于解决Uber内部离线数据的合规问题。

HUDI 最为相对成熟的数据湖技术,和另外的Iceberg、Delta Lake一起被称为数据湖的三剑客。

数据挖掘(Data mining)

数据挖掘关乎如下过程，从一大群数据中以复杂的模式识别技巧找出有意义的模式，并且得到相关洞见。它与前文所述的「分析」息息相关，在数据挖掘中，你将会先对数据进行挖掘，然后对这些得到的结果进行分析。为了得到有意义的模式(pattern)，数据挖掘人员会使用到统计学(一种经典的旧方法)、机器学习算法和人工智能。