- 博客(9)
- 收藏
- 关注
转载 Hadoop 系列(八)—— 基于 ZooKeeper 搭建 Hadoop 高可用集群
一、高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所以它的实现也更加复杂,故下面先进行讲解: 1.1 高可用整体架构 HDFS 高可用架构如下: 图片引用自:https://www.edurek...
2019-09-17 13:04:00 258
转载 Hadoop 系列(七)—— HDFS Java API
一、 简介 想要使用 HDFS API,需要导入依赖 hadoop-client。如果是 CDH 版本的 Hadoop,还需要额外指明其仓库地址: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://...
2019-09-17 13:02:40 113
转载 Hadoop 系列(六)—— HDFS 常用 Shell 命令
1. 显示当前目录结构 # 显示当前目录结构 hadoop fs -ls <path> # 递归显示当前目录结构 hadoop fs -ls -R <path> # 显示根目录下内容 hadoop fs -ls / 2. 创建目录 # 创建目录 hadoop fs -mkdir <path> # 递归创建目录 hadoop fs -mkdir -p ...
2019-09-17 13:01:32 266
转载 Hadoop 系列(五)—— Hadoop 集群环境搭建
一、集群规划 这里搭建一个 3 节点的 Hadoop 集群,其中三台主机均部署 DataNode 和 NodeManager 服务,但只有 hadoop001 上部署 NameNode 和 ResourceManager 服务。 二、前置条件 Hadoop 的运行依赖 JDK,需要预先安装。其安装步骤单独整理至: Linux 下 JDK 的安装 三、配置免密登录 3.1 生成密匙 在每台主机...
2019-09-16 08:55:44 119
转载 Hadoop 系列(四)—— Hadoop 开发环境搭建
一、前置条件 Hadoop 的运行依赖 JDK,需要预先安装,安装步骤见: Linux 下 JDK 的安装 二、配置免密登录 Hadoop 组件之间需要基于 SSH 进行通讯。 2.1 配置映射 配置 ip 地址和主机名映射: vim /etc/hosts # 文件末尾增加 192.168.43.202 hadoop001 2.2 生成公私钥 执行下面命令行生成公匙和私匙: ssh-key...
2019-09-16 08:54:49 223
转载 Hadoop 系列(三)—— 分布式计算框架 MapReduce
一、MapReduce概述 Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。 MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 以并行的方式处理,框架对 map 的输出进行排序,然后输入到 reduce 中。MapReduce 框架专门用于 <key,va...
2019-09-13 17:50:47 119
转载 Hadoop 系列(二)—— 集群资源管理器 YARN
一、hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。 <div align="center"> <img width="600px" src="https://raw.g...
2019-09-13 17:48:20 318
转载 Hadoop 系列(一)—— 分布式文件系统 HDFS
一、介绍 HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 二、HDFS 设计原理 2.1 HDFS 架构 HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成: NameNode : 负责执行有关 文件系统命名空间 的操作,例如打...
2019-09-11 14:46:25 244
转载 基于 ZooKeeper 搭建 Hadoop 高可用集群
一、高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所以它的实现也更加复杂,故下面先进行讲解: 1.1 高可用整体架构 HDFS 高可用架构如下: 图片引用自:https://www.edurek...
2019-06-20 10:53:26 128
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人