集群的安装与使用、HDFS文件系统、Hive的配置

一、Hadoop集群的搭建

集群搭建方式

  • Standalone mode(独立模式)
    独立模式又称为单机模式,仅1个机器运行1个java进程,主要用于调试。
  • Cluster mode(群集模式)单节点模式-高可用HA模式
    集群模式主要用于生产环境部署,会使用n台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。

单机模式

在这里插入图片描述

集群模式

在这里插入图片描述

Hadoop启动与关闭(单节点模式)

  • 一键启动大数据环境

/onekey/my-start-all.sh

  • 一键关闭大数据环境

/onekey/my-stop-all.sh

Hadoop页面访问(集群模式)

  • 查看启动进程:JPS
    在这里插入图片描述
  • 查看HDFS页面
    查看NameNode页面地址:http://192.168.52.161:50070(IP地址根据实际情况更改更改)
    在这里插入图片描述
  • 查看YARN页面
    http://192.168.52.161:8088(IP地址根据实际情况更改更改)
    在这里插入图片描述
  • 查看已经finished的mapreduce运行日志
    http://192.168.52.161:19888(IP地址根据实际情况更改更改)
    在这里插入图片描述

二、HDFS文件系统

HDFS简介

  • HDFS(Hadoop Distributed File System),意为:Hadoop分布式文件系统。
    是Apache Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在,也可以说大数据首先要解决的问题就是海量数据的存储问题。

HDFS特点

在这里插入图片描述

HDFS架构

在这里插入图片描述

分块存储

  • HDFS中的文件在物理上是分块存储的,默认大小是128M,不足128M则本身就是一块块的大小可以通过配置参数来规定,参数位于hdfs-default.xml中:dfs.blocksize

副本机制

  • 文件的所有block都会有副本,副本系数可以在文件创建的时候指定,也可以在之后通过命令改变
    副本数由参数dfs.replication控制,默认值是3,也就是会额外再复制2份,连同本身总共3份副本
    在这里插入图片描述

元数据管理

在HDFS中,Namenode管理的元数据具有两种类型。

  • 文件自身属性信息

​ 文件名称,权限,修改时间,文件大小,复制因子,数据块大小。

  • 文件块位置映射信息

​ 记录文件块和Datanode之间的映射信息,即哪个块位于哪个节点上。

数据块存储

  • 文件的各个block的具体存储管理由DataNode节点管理
    每一个block都可以在多个DataNode上存储

HDFS shell操作

大数据:HDFS的Shell常用命令操作

三、Apache Hive

Apache Hive概述

HIve的本质

  • Hive 的本质就是将 HDFS 文件映射成一张 Hive 表.
    在这里插入图片描述

HIve基础架构

在这里插入图片描述

Hive 的三种部署方式

  • Hive 的三种部署方式分别为:内嵌模式、本地模式、远程模式.
    在这里插入图片描述

1.内嵌模式

  • 不需要手动开启和配置 metastore 服务.
  • 客户端不能共享 Metastore 服务和元数据库 .
  • 可以使用 Hive 内置的数据库 Derby 存储元数据.

2.本地模式

  • 不需要手动开启和配置 metastore 服务.
  • 可以共享源数据库,元数据库可以使用外置数据库.
  • 不能共享 Metastore 服务.

3.远程模式

  • 必须手动开启 Metastore 服务.
  • 元数据可以存储在第三方数据库.
  • Hive 的第一代客户端底层是 Shell 实现的,只需要手动启动 Metastore 即可.
  • Hive 的第二代客户端底层是 Java 实现的,必须手动启动 HiveServer2 服务才可以正常使用.

Hive初体验

通过创建表并输入数据
在这里插入图片描述
运行结果为
在这里插入图片描述

Hive客户端(idea实现)

通过手动配置驱动,并填写相关的信息进行hive的实现
在这里插入图片描述
在这里插入图片描述
mysql的部署与hive的部署大致相同,但要注意的是,MySQL的连接需要填写密码
在这里插入图片描述

  • 37
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
CDH(Cloudera Distribution of Hadoop)是一种开源的分布式计算框架,它包含了Hadoop、Yarn、HDFS等组件,同时还提供了Hive、Impala等工具,可以方便地进行大数据处理和分析。 在CDH集群中,Yarn、HDFSHive、Impala是四个核心组件,运维这些组件需要掌握以下几个方面: 1. Yarn运维 Yarn是CDH中的资源管理器,它负责管理集群中的资源,并将这些资源分配给运行在集群上的各个应用程序。Yarn的运维涉及到以下几个方面: (1)配置管理:包括Yarn的配置文件、资源管理器的配置、容器管理器的配置等。 (2)集群监控:需要监控Yarn的运行状态、资源使用情况、队列状态等。 (3)任务调度:需要管理Yarn中的作业和任务,包括调度作业、监控任务执行、处理任务失败等。 2. HDFS运维 HDFS是CDH中的分布式文件系统,它负责存储集群中的数据,并提供高可用、高性能的数据访问服务。HDFS的运维涉及到以下几个方面: (1)配置管理:包括HDFS配置文件、NameNode的配置、DataNode的配置等。 (2)集群监控:需要监控HDFS的运行状态、数据存储情况、数据访问情况等。 (3)数据管理:需要管理HDFS中的数据,包括上传、下载、删除、修改等操作。 3. Hive运维 Hive是CDH中的数据仓库工具,它可以将结构化数据映射到Hadoop中的HDFS和MapReduce上进行查询和分析。Hive的运维涉及到以下几个方面: (1)配置管理:包括Hive配置文件、元数据存储配置、查询引擎配置等。 (2)查询优化:需要对Hive中的查询语句进行优化,以提高查询性能。 (3)数据管理:需要管理Hive中的数据,包括创建表、导入数据、备份数据等。 4. Impala运维 Impala是CDH中的实时查询工具,它可以在Hadoop中实现快速查询和分析。Impala的运维涉及到以下几个方面: (1)配置管理:包括Impala的配置文件、元数据存储配置、查询引擎配置等。 (2)查询优化:需要对Impala中的查询语句进行优化,以提高查询性能。 (3)数据管理:需要管理Impala中的数据,包括创建表、导入数据、备份数据等。 总之,CDH集群的运维需要从多个方面进行管理和监控,只有全面掌握各个组件的运维方法,才能保证集群的稳定性和高可用性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值