![](https://img-blog.csdnimg.cn/20191011170923738.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
hei bai ying
这个作者很懒,什么都没留下…
展开
-
Hadoop 系列(一)—— 分布式文件系统 HDFS
一、介绍HDFS (Hadoop Distributed File System)是Hadoop下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。二、HDFS 设计原理 2.1 HDFS 架构HDFS 遵循主/从架构,由单个NameNode(NN)和多个DataNode(DN)组成:NameNode : 负责执行有关文件系统命名空间的操作,例如打开,关闭、重...原创 2019-06-07 16:30:03 · 768 阅读 · 0 评论 -
Hadoop 系列(二)—— 集群资源管理器 YARN
一、hadoop yarn 简介Apache YARN (Yet Another Resource Negotiator) 是hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在YARN上,由YARN进行统一地管理和资源分配。 二、YARN架构 1. ResourceManagerResourceManager通常在独立的机器上以后台进程的形式运行,它是整个...原创 2019-06-07 16:30:17 · 506 阅读 · 0 评论 -
Hadoop 系列(三)—— 分布式计算框架 MapReduce
一、MapReduce概述Hadoop MapReduce是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到Hadoop集群上用于并行处理大规模的数据集。MapReduce作业通过将输入的数据集拆分为独立的块,这些块由map以并行的方式处理,框架对map的输出进行排序,然后输入到reduce中。MapReduce框架专门用于<key,value>键值对处理,它将...原创 2019-06-07 16:30:30 · 673 阅读 · 0 评论 -
Hadoop 系列(四)—— Hadoop单机伪集群环境搭建
一、前置条件Hadoop的运行依赖JDK,需要预先安装,安装步骤见:Linux下JDK的安装二、配置免密登录Hadoop组件之间需要基于SSH进行通讯。2.1 配置映射配置ip地址和主机名映射:vim /etc/hosts# 文件末尾增加192.168.43.202 hadoop0012.2 生成公私钥执行下面命令行生成公匙和私匙:ssh-keygen -t r...原创 2019-06-07 16:30:41 · 267 阅读 · 0 评论 -
Hadoop 系列(五)—— Hadoop集群环境搭建
一、集群规划这里搭建一个3节点的Hadoop集群,其中三台主机均部署DataNode和NodeManager服务,但只有hadoop001上部署NameNode和ResourceManager服务。 二、前置条件Hadoop的运行依赖JDK,需要预先安装。其安装步骤单独整理至:Linux下JDK的安装三、配置免密登录3.1 生成密匙在每台主机上使用ssh-keygen命令生成...原创 2019-06-07 16:30:52 · 279 阅读 · 1 评论 -
Hadoop 系列(六)—— HDFS 常用 Shell 命令
1. 显示当前目录结构# 显示当前目录结构hadoop fs -ls <path># 递归显示当前目录结构hadoop fs -ls -R <path># 显示根目录下内容hadoop fs -ls /2. 创建目录# 创建目录hadoop fs -mkdir <path> # 递归创建目录hadoop fs -mkdir -p...原创 2019-06-07 16:31:04 · 564 阅读 · 0 评论 -
Hadoop 系列(七)—— HDFS Java API
一、 简介想要使用HDFS API,需要导入依赖hadoop-client。如果是CDH版本的Hadoop,还需要额外指明其仓库地址:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w...原创 2019-06-07 16:31:17 · 181 阅读 · 0 评论 -
Hadoop 系列(八)—— 基于ZooKeeper搭建Hadoop高可用集群
一、高可用简介Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所以它的实现也更加复杂,故下面先进行讲解:1.1 高可用整体架构HDFS 高可用架构如下: 图片引用自:https://www.edur...原创 2019-06-07 16:31:33 · 443 阅读 · 0 评论