005 Hadoop简单介绍 Hadoop单机版安装及应用 hdfs相关内容介绍 hdfs文件读写流程 Yarn概念的讲解 Yarn的流程介绍

在这里插入图片描述
官网的内容http://hadoop.apache.org/
Welcome to Apache™ Hadoop®!
What Is Apache Hadoop?
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.
灵活的 可扩展的 分布式计算的软件或者平台 开源的
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

The project includes these modules:

Hadoop Common: The common utilities that support the other Hadoop modules.
Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
Hadoop YARN: A framework for job scheduling and cluster resource management.
Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


hadoop单机版的安装
通过shell拖到home目录下
解压到usr local目录下

在这里插入图片描述
在这里插入图片描述
进入目录 查看是否解压出来
在这里插入图片描述
有 然后查看hadoop目录
在这里插入图片描述
bin目录 二进制目录 可执行文件都是 binary
在这里插入图片描述
etc目录 软件配置目录
etc下面还有一层hadoop
这个目录下面基本全是配置文件
里面有六七个今后经常用的文件
在这里插入图片描述
还有included lib libexec
基本都是hadoop的一些库和扩展性文件
在这里插入图片描述
license notice readme 是软件发行都会有的必备的东西
在这里插入图片描述
sbin下面也是一些可执行的命令
只不过这些命令是用来启停hadoop服务的
也有好几个常用的
在这里插入图片描述
share下面是dos学习文档 使用说明书
hadoop里面是一些测试jar包 还有源码
在这里插入图片描述
在这里插入图片描述
目录先说这么多

解压过后 就算安装好了
不过还有一步
要配置环境变量
vi /etc/profile
shift + G
到最后一行
按o换行
HADOOP_HOME=/usr/local/hadoop-2.7.1/
:cd /usr/local/hadoop-2.7.1/ 这一句是tab键补出来 为了填上面那一句的
用完删掉
然后PATH后面追加 H A D O O P H O M E / b i n : HADOOP_HOME/bin: HADOOPHOME/bin:HADOOP_HOME/sbin:
在这里插入图片描述
配置好了还没生效 source /etc/profile/即可生效
在这里插入图片描述
但不知道为什么 我的source命令不能用
但是hadoop环境变量是可以的了
在这里插入图片描述
然后我们看hadoop version
在这里插入图片描述
表示我们还没有配这个JAVA环境变量
我们来配
vi ./etc/hadoop/hadoop-env.sh
找到JAVA_HOME 换成我们java的目录
在这里插入图片描述
保存 退出
再试一次hadoop version
在这里插入图片描述
这样就没问题了
总结一下
hadoop单机版的安装
在这里插入图片描述
下面我们举个例子

  $ mkdir input
  $ cp etc/hadoop/*.xml input
  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'
  $ cat output/*

官网上的单机版的例子
在这里插入图片描述
创建一个目录input
然后把 etc/hadoop/这个目录下的所有的.xml文件复制到该目录下
然后去计算每一个文件里面每一个单词出现的次数
在这里插入图片描述
这有8个文件
命令
hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /home/input/ /home/outout

注意 这个output文件不能先创建

防止和已有文件内的已有内容掺杂 造成结果不准确
这是跑的时候出现的内容 不一一解说 以后再说
在这里插入图片描述
看结果output
有两个文件
其中第二个文件代表本次作业成功
在这里插入图片描述
直接使用more /home/output/part-r-00000看详细结果
在这里插入图片描述
ok
hadoop单机版的安装和应用就说到这里


我们看一下这个根目录下有什么东西
hdfs dfs -ls /
在这里插入图片描述
所以
我们看看HDFS hdfs这个
hadoop有三大核心 四大模块
hdfs就是一大模块在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(一次写入 多次读写)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
官网上的图
https://hadoop.apache.org/old/#Getting+Started
http://hadoop.apache.org/docs/current/
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html在这里插入图片描述
Rack1 Rack2就是机架 每个机架可以安装多台服务器
hadoop1默认64M一个块
Hadoop2 128M一个块
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


Yarn 在中间这一层 全局资源管理
是在hadoop2.x之后才有的 1.x时没有
在这里插入图片描述
云计算的三层服务
IaaS 基础设施即服务
PaaS 平台即服务
SaaS 软件即服务
在这里插入图片描述
全局资源管理 调度任务
有点像系统了
Yarn可以说是一个小型系统
可以说是一个软件
在云计算这块 Yarn可以说是 平台这一块的
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


分布式资源管理框架Yarn

Yarn的流程介绍

Job Tracker是Hadoop1里面的
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值