大数据-Hadoop的介绍、配置和集群的使用

HDFS分布式文件系统

分布式:将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事情
单机模式
厨房里只有一个人,这个人既要买菜,又要切菜,还要炒菜,效率低。
在这里插入图片描述
缺点:给服务器造成很大压力
人指服务器
分布式模式
厨房里有三个人,一个人买菜,一个切菜,一个炒菜,效率提高了。
在这里插入图片描述
问题:
1,用户交互系统的压力大,都要访问它
2,单点故障问题
集群
解决上面分布式的问题,引入集群概念
集群:一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干个计算机联合起来工作,可以并行,也可以是备份的

在这里插入图片描述
集群相比于分布式方法:备份(多台服务器)
分布式和集群的区别:
分布式:分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事
集群:集群主要是将同一个业务,部署在多个服务器,多个人在一起做同样的事

Hadoop框架介绍

Hadoop是用Java语言实现的开源软件框架,是一个储存和计算的大规模数据的软件平台

Hadoop的核心组件:

  1. HDFS(交叉式文件系统):解决海量数据存储
  2. MAPREDUCE(分布式运算编程框架):解决海量数据计算
  3. YARN(作业调度和集群资源管理框架):解决资源任务调度

广义的Hadoop:Hadoop生态圈,包括LInux、zookeeper、hive、spark等等

版本
2.x版本,开源社区版

Hadoop1.x与Hadoop2.x的区别:

  • 1.x中mapreduce(数据计算、资源管理)、hdfs(数据存储问题,自动备份)
  • 2.x中mapreduce(数据计算)、yarn(资源管理)、hdfs(数据存储问题,自动备份)因为mapreduce压力减轻了,从而更稳定

内部结构
在这里插入图片描述
Hadoop集群包括两个集群:HDFS集群和YARN集群,两者逻辑上分离(一个存储,一个管理),但物理上常在一起(指在同一个服务器上)

HDFS模块:

  • NameNode:集群中的主节点,用于管理集群中的各种数据。存储元数据
  • SecondaryNameNode:用于Hadoop当中元数据(描述数据的数据)信息的辅助管理。(移动硬盘,备份元数据)
  • DataNode:集群中的从节点,存储集群中的各种数据

YARN模块:

  • ResourceManager:接收用户的计算请求任务,并负责集群的资源分配
  • NodeManager:负责执行主节点分配的任务,实际执行任务

mapreduce模块:在这里插入图片描述
mapreduce计算需要的数据和产生的结果需要HDFS来进行存储。—mapreduce慢的主要原因(读磁盘慢)
mapreduce的运行需要yarn集群来提供资源调度
mapreduce是一个计算框架。map(先分布式计算)、reduce(将分布式计算的结果合并)

单机模式:
在这里插入图片描述
集群模式,角色分配:
在这里插入图片描述

总结

Hadoop的两种说法:

  • 侠义:指Hadoop这个组件里面的三个组件,mapreduce(计算),HDFS集群(存储)和YARN集群(管理)
  • 广义:Hadoop的生态圈,很多大数据组件构成:包括Linux,zookeeper,Hadoop,hive,hbase,redis,elk,kafka,java,scala,spark等等

Hadoop的两版本区别(Hadoop1.x与Hadoop2.x):

  • 1.x :Map reduce(数据计算,资源管理),hdfs(数据存储问题,会自动备份)
  • 2.x(更加稳定,因为Map reduce的压力减轻了):Map reduce计算,hdfs存储,yarm资源管理

hdfs的三种角色:

  • namenode:管理文件,存储元数据
  • secondarynamenode:辅助namenode,存储元数据
  • datanode:实际存储数据的地方(服务器的主要功能)

yarn的两种角色:

  • resourcemanager:接收客户端的任务,分配任务,管理资源
  • nodemanager:实际执行任务

MapReduce:就是一个计算框架

  • map:先分布式计算
  • reduce:将分布式计算的结果合并
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值