Hadoop入门---简单介绍

一. 分布式和集群

分布式:多台服务器协同配合完成同一个大任务(每个服务器都只完成大任务拆分出来的单独1个子任务),可以提高工作效率,但是当其中一台服务器无法运行时,该子任务无法完成,就会导致大任务也无法完成。

集群:多台服务器联合起来独立做相同的任务(多个服务器分担客户端发来的请求)。当只有一个任务时,如果正在运行的服务器出现故障,剩下的服务器可以顶上运行任务,保证任务的持续性;如果有多个相同的任务,则多台服务器可以同时运行,可以提高工作效率。

图片示例

在这里插入图片描述

二. Hadoop框架

1.概述

Hadoop简介:是Apache旗下的一个用Java语言实现开源软件框架,是一个存储和计算大规模数据的软件平台。
Hadoop起源: Doug Cutting 创建的,最早起源一个Nutch项目。
三驾马车: 谷歌的三遍论文加速了hadoop的研发
Hadoop框架意义: 作为大数据解决方案,越来越多的企业将Hadoop 技术作为进入大数据领域的必备技术。

狭义上来说:Hadoop指Apache这款开源框架,它的核心组件有:HDFS,MR,YANR
广义上来说:Hadoop通常是指一个更广泛的概念——Hadoop生态圈

Hadoop发行版本: 分为开源社区版和商业版。
开源社区版:指由Apache软件基金会维护的版本,是官方维护的版本体系,版本丰富,兼容性稍差。
商业版:指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本,如: cloudera的CDH等。

2.版本更新

1.x版本系列: hadoop的第二代开源版本,该版本基本已被淘汰
hadoop组成: HDFS(存储)和MapReduce(计算和资源调度)

2.x版本系列: 架构产生重大变化,引入了Yarn平台等许多新特性
hadoop组成: HDFS(存储)和MapReduce(计算)和YARN(资源调度)

3.x版本系列: 因为2版本的jdk1.7不更新,基于jdk1.8升级产生3版本
hadoop组成: HDFS(存储)和MapReduce(计算)和YARN(资源调度)

3.Hadoop架构详解[重点]

当前版本hadoop组成:hdfs mapreduce yarn

hdfs:hadoop分布式文件存储系统,解决海量数据的存储
元数据: 描述核心数据的数据
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据
SecondaryNameNode:主要能用于辅助NameNode进行文件块元数据存储
DataNode:集群当中的从节点,主要用于存储真实的海量的业务数据

yarn:作业调度和集群资源管理的框架,解决资源任务调度
ResourceManager: 接收用户的计算请求任务,并负责集群的资源管理和分配
NodeManager: 负责执行主节点分配的任务(给MR的计算程序提供资源)

mapreduce:分布式运算编程框架,解决海量数据的计算
如何计算: 核心思想就是分而治之 Map负责分解,Reduce负责合并
MR程序: 使用java/python然后去编写MR程序,成本高
如何解决? 在hive平台上编写sql,执行sql底层自动转为MR程序

三者之间的关系:
MapReduce计算需要的数据和产生的结果需要HDFS来进行存储
MapReduce的运行需要由Yarn集群来提供资源调度

4.Hadoop集群启动[练习]

启动

#一键启动hdfs和yarn集群
[root@node1 ~]# start-all.sh

#单独启动mr计算任务历史服务
[root@node1 ~]# mapred --daemon start historyserver

页面

如果没有做以下配置,需要使用ip地址访问:
​ HDFS: http://192.168.88.161:9870/
​ YARN: http://192.168.88.161:8088/
​ jobhistory: http://192.168.88.161:19888/

可以进入 C:\Windows\System32\drivers\etc 目录打开hosts文件,添加以下内容:

192.168.88.161 node1.itcast.cn node1
192.168.88.162 node2.itcast.cn node2
192.168.88.163 node3.itcast.cn node3

配置完成后,可以直接通过node1访问

​ HDFS: http://node1:9870/
​ YARN: http://node1:8088/
​ JOBHISTORY: http://node1:19888/

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值