Hadoop入门简要学习指南(1)
一、 什么是Hadoop
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.(引自官网)
Hadoop 是一个开源的,可靠的,可扩展的分布式计算软件。
主要通过以下几个部分来阐述hadoop的学习思路及历程:环境搭建(伪分布式环境)、核心组件、原理解析、Demo示例。
二、Hadoop伪分布式环境搭建
应用案例:见另外一篇博客(https://blog.csdn.net/qq_29269907/article/details/81221430)
三、Hadoop核心组件
Hadoop三个核心组件主要包括HDFS,YARN,MapReduce;
HDFS
HDFS 是一个高容错,可扩展,低成本的分布式文件系统。
DataNode的个数不够支持数据存储时,可以自由的去增加DataNode的个数。
横向扩容比纵向扩容成本低。
HDFS 是把一个文件切分为n个block,然后每个block进行复制。例如file1(300M)切分三个block(默认每个block是128M),分别是block1,block2,block3.然后每个datanode可以存储多个block,b1/b2/b3分别存储到三个不同的datanode中,这样就可以体现出容错性。
漫画详解HDFS操作文件系统:
写入数据:
读取数据:
容错:
备份规则:
结束语: