Hadoop-No.11之元数据

元数据的重要性

三个重要理由,让我们不得不在意元数据

  • 元数据允许用户通过一张表的高一级逻辑抽象,而不是HDFS中文件的简单几何,或者HBase中的表来与数据交互.这意味着用户不比关心数据是如何存储的,存储到了什么地方
  • 元数据允许用户提供数据的信息(如分区或者排序特性),而后通过不同个的工具(用户或者其他人写入的)利用这些信息生成或者查询工具
  • 元数据允许数据管理工具链接该元数据,而且允许用户执行数据查找(查找可用的数据,并查找如何使用该数据)与数据血缘分析(追踪一个给定数据集的来源或者起源)

元数据

一般来说,元数据指的是关于数据的数据.在Hadoop生态系统中,元数据有很多种.

  • 与逻辑数据集有关的元数据

    包括以下信息:数据集的位置(比如HDFS中的目录或者HBase中表的名称),与数据集有关的模式.数据集的分区与排序特性(如果有).以及适用的数据集格式(比如CSV.TSV.SequenceFile,等等)此类元数据通常存储于独立的元数据残酷中.

  • 与HDFS文件有关的元数据

    包括以下信息:该文件的武安县与属主,以及数据节点上不同数据块的位置.此类信息通常通过Hadoop NameNode进行存储和管理

  • 与HBase表相关的元数据

    包括以下信息:表的名称.相关名称空间.相关属性(如MAX_FILESIZE,READONLY,等等),以及列簇的名称.此类信息有HBase存储和管理.

  • 与数据输入和转化有关的元数据

    包括以下信息: 创建执行数据集的特定用户,数据集的来源,创建数据集花费的时间,以及存在多少条记录,或者加载的数据大小是多少.

  • 与数据集统计相关的元数据

    包括以下信息:数据集中行的数量,每列中特定值的数量,数据分布的直方图以及最大值和最小值,此类元数据用于不同的工具.这些工具能够利用元数据优化执行计划.它们也能提供数据分析师使用,他们可以基于元数据进行快速分析

下载和安装Hadoop 2.7.3版本需要几个步骤: 1. **下载文件**: - 从Apache Hadoop官网(https://hadoop.apache.org/releases.html)下载hadoop-2.7.3.tar.gz,这是Hadoop的二进制包,包含了Hadoop的核心组件。 - 也下载hadoop-eclipse-plugin-2.7.3.jar,这是一个Eclipse插件,用于Eclipse集成开发环境的支持。 - 同时还需要hadop-common-bin-master.zip,这可能是Hadoop的一部分,但通常Hadoop的发行版不会提供单独的common-bin包。 2. **解压二进制包**: 使用tar命令解压hadoop-2.7.3.tar.gz,通常在你的服务器或机器的一个目录下创建一个名为`hadoop-2.7.3`的新目录,并将压缩包解压到其。 ``` tar -xvf hadoop-2.7.3.tar.gz -C /path/to/your/directory ``` 3. **配置**: 进入解压后的目录,编辑`conf/hadoop-env.sh`等配置文件,设置环境变量如JAVA_HOME、HADOOP_HOME等。如果需要,还需编辑核心配置文件如`core-site.xml`, `hdfs-site.xml`等。 4. **安装Eclipse插件**: 将hadoop-eclipse-plugin-2.7.3.jar放入Eclipse的plugins目录下,然后重启Eclipse以便加载插件。在Eclipse里,你可以通过Help > Install New Software...找到并安装它。 5. **获取common-bin部分**: 如果你需要的是hadoop-common-bin-master.zip,确认它的来源是否可靠。一般情况下,Hadoop发行版已经包含所有必要的binaries。如果确实需要,解压后放到Hadoop的bin目录下即可。 6. **启动服务**: 在Hadoop安装目录下的sbin目录下运行启动脚本(如`start-all.sh`),启动Hadoop的服务。 记得根据你的系统需求进行适当的调整,例如权限设置和网络配置等。安装完成后,检查日志文件以确保一切正常运行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值