【Hadoop】基础概念1

hadoop核心组件

1. hadoop包含的模块:

  • Hadoop common:提供一些通用的功能支持其他hadoop模块。

  • Hadoop Distributed File System:即分布式文件系统,简称HDFS。主要用来做数据存储,并提供对应用数据高吞吐量的访问。

  • Hadoop Yarn:用于作业调度和集群资源管理的框架。

  • Hadoop MapReduce:基于yarn的,能用来并行处理大数据集的计算框架。

2. HDFS:

HDFS是谷歌GFS的一个开源实现,具有扩展性容错性海量数据存储的特点:

  • 扩展性,主要指很容易就可以在当前的集群上增加一台或者多台机器,扩展计算资源。

  • 容错性,主要指其多副本的存储机制。HDFS将文件切分成固定大小的block(默认是128M),并以多副本形式存储在多台机器上,当其中一台机器发生故障,仍然有其他副本供我们使用。但这个容错并不是绝对的,当所有节点都发生故障,文件就会丢失,不过这样的概率较小。

  • 海量数据存储:多台机器构成了一个集群,相对单机能存储更多量的数据。这也是Hadoop解决的最主要问题之一。

数据切分,多副本,容错等机制都是Hadoop底层已经设计好的,对用户透明,用户不需要关系细节。只需要按照对单机文件的操作方式,就可以进行分布式文件的操作。如文件的上传,查看,下载等。

多副本存储示例:

                                     HDFS多副本存储示意图

以part-1为例进行说明,它被分成三个block,block_id分别是2,4,5,且副本系数为3。可以看到在DataNode上,2,4,5都各存储在了三个节点上,这样当其中一个节点故障时,仍然能够保证文件的可用。block_id存在的必要性在于,在用户需要对文件进行操作时,相应的block能够按顺序进行“组合”起来。

 


【Hadoop篇】--Hadoop常用命令总结

Hadoop简介和常用命令

hadoop常见面试题

Hadoop基础知识总结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值