Hadoop概述

最新推荐文章于 2019-05-16 16:00:15 发布

zghgchao

最新推荐文章于 2019-05-16 16:00:15 发布

阅读量541

点赞数

分类专栏： hadoop 文章标签： Hadoop

本文链接：https://blog.csdn.net/qq_22027637/article/details/78953494

版权

hadoop 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Hadoop是Apache开源的一个可靠的、可扩展的，分布式计算的开源软件。Hadoop能够搭建大型数据仓库，PB级数据的存储、处理、分析、统计等业务。如：搜索引擎，日志分析，商业智能、数据挖掘等。Hadoop包括以下几个模块：

Hadoop Common：The common utilities that support the other Hadoop modules.（支持其他Hadoop模块的公共实用程序。）
Hadoop Distributed File System（HDFS）：A distributed file system that provides high-throughput access to application data.（一个分布式文件系统，它提供对应用程序数据的高吞吐量访问。）
Hadoop YARN：A framework for job scheduling and cluster resource management.（作业调度和集群资源管理的框架。）
Hadoop MapReduce：A YARN-based system for parallel processing of large data sets.（大型数据集并行处理的基于yarn的系统。）

Hadoop核心组件之分布式文件系统HDFS

来源于Google的GFS论文，论文发表于2003年10月
HDFS是GFS的克隆版
HDFS特点：扩展性＆容错性＆海量数据存储
将文件切分成指定大小的数据块并以多副本的形式存储在多台机器上
数据切分、多副本、容错等操作对用户是透明的

HDFS有一个主/从架构。HDFS集群由一个单独的NameNode组成，它是一个管理文件系统名称空间的主服务器，并管理客户端对文件的访问。此外，还有一些DataNodes，通常是集群中的每个节点，它们管理与它们运行的节点相关联的存储。HDFS公开文件系统名称空间，并允许用户数据存储在文件中。在内部，一个文件被分割成一个或多个块，这些块被存储在一组DataNodes中。NameNode执行文件系统命名空间操作，比如打开、关闭和重命名文件和目录。它还决定了块的映射到DataNodes。DataNodes负责从文件系统的客户端提供读和写请求。DataNodes还在NameNode的指令上执行块创建、删除和复制。

集群中单个NameNode的存在极大地简化了系统的体系结构。NameNode是所有HDFS元数据的仲裁者和存储库。

系统的设计方式是，用户数据永远不会通过NameNode。