集群的安装与使用、HDFS文件系统、Hive的配置

学java的nm

已于 2024-04-26 08:58:42 修改

阅读量1.6k

点赞数 37

文章标签： hadoop 大数据

于 2024-04-23 21:14:48 首次发布

本文链接：https://blog.csdn.net/m0_73577092/article/details/138136838

版权

一、Hadoop集群的搭建

集群搭建方式

Standalone mode（独立模式）
独立模式又称为单机模式，仅1个机器运行1个java进程，主要用于调试。
Cluster mode（群集模式）单节点模式-高可用HA模式
集群模式主要用于生产环境部署，会使用n台主机组成一个Hadoop集群。这种部署模式下，主节点和从节点会分开部署在不同的机器上。

单机模式

在这里插入图片描述

集群模式

在这里插入图片描述

Hadoop启动与关闭(单节点模式)

一键启动大数据环境

/onekey/my-start-all.sh

一键关闭大数据环境

/onekey/my-stop-all.sh

Hadoop页面访问(集群模式)

查看启动进程：JPS
查看HDFS页面
查看NameNode页面地址:http://192.168.52.161:50070（IP地址根据实际情况更改更改）
查看YARN页面
http://192.168.52.161:8088（IP地址根据实际情况更改更改）
查看已经finished的mapreduce运行日志
http://192.168.52.161:19888（IP地址根据实际情况更改更改）

二、HDFS文件系统

HDFS简介

HDFS（Hadoop Distributed File System），意为：Hadoop分布式文件系统。
是Apache Hadoop核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在，也可以说大数据首先要解决的问题就是海量数据的存储问题。

HDFS特点

在这里插入图片描述

HDFS架构

在这里插入图片描述

分块存储

HDFS中的文件在物理上是分块存储的，默认大小是128M，不足128M则本身就是一块块的大小可以通过配置参数来规定，参数位于hdfs-default.xml中：dfs.blocksize

副本机制

文件的所有block都会有副本，副本系数可以在文件创建的时候指定，也可以在之后通过命令改变
副本数由参数dfs.replication控制，默认值是3，也就是会额外再复制2份，连同本身总共3份副本

元数据管理

在HDFS中，Namenode管理的元数据具有两种类型。

文件自身属性信息

文件名称，权限，修改时间，文件大小，复制因子，数据块大小。

文件块位置映射信息

记录文件块和Datanode之间的映射信息，即哪个块位于哪个节点上。

数据块存储

文件的各个block的具体存储管理由DataNode节点管理
每一个block都可以在多个DataNode上存储

HDFS shell操作

大数据：HDFS的Shell常用命令操作

三、Apache Hive

Apache Hive概述

HIve的本质

Hive 的本质就是将 HDFS 文件映射成一张 Hive 表.

HIve基础架构

在这里插入图片描述

Hive 的三种部署方式

Hive 的三种部署方式分别为：内嵌模式、本地模式、远程模式.

1.内嵌模式

不需要手动开启和配置 metastore 服务.
客户端不能共享 Metastore 服务和元数据库 .
可以使用 Hive 内置的数据库 Derby 存储元数据.

2.本地模式

不需要手动开启和配置 metastore 服务.
可以共享源数据库，元数据库可以使用外置数据库.
不能共享 Metastore 服务.

3.远程模式

必须手动开启 Metastore 服务.
元数据可以存储在第三方数据库.
Hive 的第一代客户端底层是 Shell 实现的，只需要手动启动 Metastore 即可.
Hive 的第二代客户端底层是 Java 实现的，必须手动启动 HiveServer2 服务才可以正常使用.

Hive初体验

通过创建表并输入数据
在这里插入图片描述
运行结果为

Hive客户端（idea实现）

通过手动配置驱动，并填写相关的信息进行hive的实现
在这里插入图片描述

mysql的部署与hive的部署大致相同，但要注意的是，MySQL的连接需要填写密码

学java的nm

关注

37
点赞
踩
47

收藏

觉得还不错? 一键收藏
2
评论
集群的安装与使用、HDFS文件系统、Hive的配置

HDFS（Hadoop Distributed File System），意为：Hadoop分布式文件系统。是Apache Hadoop核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在，也可以说大数据首先要解决的问题就是海量数据的存储问题。Hive 的本质就是将 HDFS 文件映射成一张 Hive 表.
复制链接

扫一扫