元数据概述

1.什么是元数据

元数据是关于数据的组织、数据域及其关系的信息,也就是说元数据是描述数据的数据。

举个例子:户口本的元数据。户口本上除了有姓名、身份证号、出生日期、住址、民族等信息外,还有家庭关系,如夫妻关系、父子关系、兄弟关系等,这些信息就是描述一个人的元数据,通过户口本中的元数据,不仅可以了解一个人的基本信息,还可以了解其家庭关系。再举个例子:图书馆中的元数据。图书馆都会用一个叫“图书目录”的文件夹来管理图书,图书目录包含来图书名称、编号、作者、主题、摆放位置等信息,用来帮助图书管理员管理和快速查找图书。元数据就如同图书馆的图书目录一样,能够帮助数据管理员管理数据。

元数据与数据的不同之处在于:元数据描述的不是特定的实例或记录,IT部门或业务部门都需要高质量的元数据来理解现有数据;元数据是比一般意义上的数据范畴更加广泛的数据,不仅表示数据的类型、名称、数值等信息,还提供数据的上下文描述,比如数据的所属业务域、取值范围、数据间的关系、业务规则、数据来源等。
下表用5W1H模型理解元数据

知识类型定义技术示例业务示例
Who谁负责数据接口的开发谁是某业务域的负责人
What干什么或是什么ERP和DW之间的数据血缘关系是什么 某业务域的指标体系是什么
When什么时候提取、转换和加载作业什么时候运行该主题的上一次分析用的数据是什么情况
Where在哪里所有类型的销售订单分别存储在哪个系统的哪些数据表里哪里可以找到按营销活动分析的数据报告
How怎么做,怎么样如何设置数据质量的管理规则如何获得产品的竞争优势
Why为什么出现数据治理问题的根本原因是什么为什么客户会不断流失

2.元数据的3种类型

业务元数据:描述数据的业务含义、业务规则等。
明确业务元数据可以让人更容易理解和使用业务元数据。元数据消除了数据二义性,让人们对数据有一致的认知,避免“自说自话”。常用的业务元数据有:

  • 业务定义、业务术语解释等;
  • 业务指标名称、计算口径、衍生指标等;
  • 业务引擎的规则、数据质量的监测规则、数据挖掘算法等;
  • 数据的安全或敏感级别等;

技术元数据:是结构化处理后的数据,方便计算机或数据库对数据进行识别、存储、传输和转换。 技术元数据可以服务于开发人员,让开发人员更加明确数据的存储、结构,从而为应用开发和系统集成奠定基础。技术元数据也可以服务于业务人员,通过元数据厘清数据关系,让业务人员更快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。常见的技术元数据有:

  • 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;
  • 数据存储类型、位置、数据存储文件格式或数据压缩类型等;
  • 字段级血缘关系、SQL脚本信息、ETL信息、数据接口等;
  • 调度依赖关系、进度和数据更新频率等。

操作元数据:描述的是数据的操作属性,包括管理部门、管理责任人等。 明确管理属性有利于将数据管理责任落实到部门和个人,是数据安全管理的基础。常见的操作元数据有:

  • 数据所有者、使用者等;
  • 数据的访问方式、访问时间、访问限制等;
  • 数据访问权限、组和角色等;
  • 数据处理作业的结果、系统执行日志等;
  • 数据备份、归档人和归档时间等。

3.元数据的6个作用

在信息世界里,元数据的主要作用是对数据进行描述、定位、检索、管理、评估和交互。

  • 描述:对数据对象的内容、属性的描述,这是元数据的基本功能,是各组织、各部门之间达成共识的基础。
  • 定位:有关数据资源位置方面的信息描述,如数据存储位置、URL等记录,可以帮助用户快速找到数据资源,有利于信息的发现和检索。
  • 检索:在描述数据的过程中,将信息对象中的重要信息抽出来标引并加以组织,建立它们之间的关系,为用户提供多层次、多途径的检索体系,帮助用户找到想要的信息。
  • 管理:对数据对象的版本、管理和使用权限的描述,方便信息对象管理和使用。
  • 评估:由于有元数据描述,用户在不浏览具体数据对象的情况下也能对数据对象有个直观的认识,方便用户的使用。
  • 交互:元数据对数据结构、数据关系的描述方便了数据对象在不同部门、不同系统之间进行流通和流转,并确保流转过程中数据标准的一致性。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop HA(High Availability)是指为了提高Hadoop集群的可用性和容错性,采取一系列措施来保证在某个节点或服务出现故障时,其他节点或服务能够接管工作并继续提供服务。 Hadoop的HA主要涉及两个关键组件:NameNode和ResourceManager。 对于HDFS(Hadoop Distributed File System),NameNode是其关键组件,负责存储文件系统的元数据信息。在单节点模式下,如果NameNode节点发生故障,整个HDFS将无法使用。为了解决这个问题,Hadoop引入了NameNode HA机制。通过配置一个Active NameNode和一个Standby NameNode,实现了对元数据的冗余备份和自动切换。Active NameNode负责处理客户端的读写请求,而Standby NameNode则复制Active NameNode的元数据信息,并接收心跳信号以检测Active NameNode的状态。一旦Active NameNode出现故障,Standby NameNode会接管其角色成为Active NameNode,并继续提供服务。 对于YARN(Yet Another Resource Negotiator),ResourceManager是其关键组件,负责资源调度和任务分配。在单节点模式下,如果ResourceManager节点发生故障,整个YARN集群将无法正常运行。为了提高可用性,Hadoop引入了ResourceManager HA机制。通过配置一个Active ResourceManager和一个Standby ResourceManager,实现了对资源调度和任务分配的冗余备份和自动切换。Active ResourceManager负责处理客户端的资源请求和任务调度,而Standby ResourceManager则复制Active ResourceManager的状态,并接收心跳信号以检测Active ResourceManager的状态。一旦Active ResourceManager出现故障,Standby ResourceManager会接管其角色成为Active ResourceManager,并继续提供服务。 通过实现NameNode HA和ResourceManager HA,Hadoop集群能够在某个节点或服务出现故障时实现自动切换,并保证数据的可用性和任务的正常执行。这大大提高了Hadoop集群的可靠性和容错性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值