系列文章目录
大数据框架Hadoop:第一章 HDFS分布式文件系统(一)
大数据框架Hadoop:第一章 HDFS分布式文件系统(二)
大数据框架Hadoop:第二章 计算框架MapReduce(一)
文章目录
前言
Hadoop作为第一代大数据框架,在大数据行业一直非常热门,直到现在还是有许多企业在使用该框架。尤其对与熟悉Java的同学,Hadoop框架是入门大数据的首选。
一、什么是Hadoop?
1.hadoop的发展历史起源介绍
-
Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
-
2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
——分布式文件系统(GFS),可用于处理海量网页的存储
——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。
-
Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目(同年,cloudera公司成立),迎来了它的快速发展期。
-
Hadoop作者Doug Cutting
-
Apache Lucene是一个文本搜索系统库
-
Apache Nutch作为前者的一部分,主要包括web爬虫、全文检索;2003年“谷歌分布式文件系统GFS”论文,2004年开源版本HDFS
-
2004年“谷歌MapReduce”论文,2005年Nutch开源版MapReduce。
2.hadoop的发展历史起源构
- HDFS模块:
- namenode:主节点,主要负责集群的管理以及元数据信息管理
- datanode:从节点,主要负责存储用户数据
- secondaryNameNode:辅助namenode管理元数据信息,以及元数据信息的冷备份
- Yarn模块:
- ResourceManager:主节点,主要负责资源分配
- NodeManager:从节点,主要负责执行任务
二、HDFS分布式文件系统
1.分布式文件系统的理解
- 图中小王收藏的avi存储于哪台机器上的记录我们称之为元数据,元数据保存在内存中。
- 最直观的理解便是三个臭皮匠,顶个诸葛亮。
- 很多的磁盘加一起就可以装下天