hadoop核心组件分布式文件系统HDFS、资源调度管理系统YARN、分布式计算框架MapReduce

分布式存储系统的第一印象

HDFS是基于谷歌的GFS的克隆版本


HDFS的特点:可扩展性(当节点不够添加一台机器就可以了),可容错的(多副本的方式可存储的),海量数据的存储

将上传文件切分成指定大小的数据块(128M)并以多副本的存储在多个机器上(处理对象任然是文件,具体的切分、多副本和容错由hadoop完成)



fiflename文件名称

numreplicas数据重复次数

block-id被重复的数据编号

资源调度管理系统YARN的第一印象

yarn负责整个集群资源的调度和整理(通俗的讲就是当一个作业被调度到机器运行时你需要多少的CPU/内存,这些由统一的yarn完成)

yarn的特点:可扩展性、可容错的(资源调度重试,重试次数可自由设定)和多框架统一资源调度(可支持spark)


分布式计算框架MapReduce的第一印象

特点:扩容性、容错性和海量数据离线处理



HADOOP生态圈


habase:数据存储查询

Hive:数据的离线批处理

flume:日志收集

sqoop:做数据交换------从数据库中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值