Hadoop入门简要学习指南(1)

Hadoop入门简要学习指南(1)

一、 什么是Hadoop

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.(引自官网)

Hadoop 是一个开源的,可靠的,可扩展的分布式计算软件。

主要通过以下几个部分来阐述hadoop的学习思路及历程:环境搭建(伪分布式环境)、核心组件、原理解析、Demo示例。

二、Hadoop伪分布式环境搭建

应用案例:见另外一篇博客(https://blog.csdn.net/qq_29269907/article/details/81221430)

三、Hadoop核心组件

Hadoop三个核心组件主要包括HDFS,YARN,MapReduce;

HDFS

HDFS 是一个高容错,可扩展,低成本的分布式文件系统。

DataNode的个数不够支持数据存储时,可以自由的去增加DataNode的个数。

横向扩容比纵向扩容成本低。

HDFS 是把一个文件切分为n个block,然后每个block进行复制。例如file1(300M)切分三个block(默认每个block是128M),分别是block1,block2,block3.然后每个datanode可以存储多个block,b1/b2/b3分别存储到三个不同的datanode中,这样就可以体现出容错性。
这里写图片描述

漫画详解HDFS操作文件系统:

写入数据:

avatar

avatar

avatar

avatar

读取数据:

avatar

容错:

avatar
avatar
avatar
avatar

备份规则:
avatar
结束语:
avatar

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值