hadoop概要

最新推荐文章于 2022-07-26 17:17:13 发布

cuanxixia1496

最新推荐文章于 2022-07-26 17:17:13 发布

阅读量284

点赞数

文章标签：数据结构与算法大数据

hadoop

hadoop 简介：
hadoop是一个能够对大量数据进行分布式处理的软件框架，实现了google的MapReduce编程模型和框架，
把应用程序分割成效的工作单元，并把这些单元放到集群节点上执行。

角色：
NameNode：
NameNode是HDFS守护进程，负责记录文件如何分割成数据块的，以及这些数据块分别被存储在哪些数据节点上
主要功能：对内存及I/O进行集中管理

DataNode：
DataNode属于集群中的每个服务器都运行的一个后台程序，负责把HDFS数据块读写到本地的文件系统

Secondary NameNode:
Secondary NameNode用户监控HDFS状态的辅助后台程序，做NameNode的备用

JobTracker：
JobTracker后台进程用来连接应用程序与Hadoop。每个Hadoop集群只有一个JobTracker，一般运行在集群的Master节点上

TaskTracker：
TaskTracker与负责存储数据的DataNode结合，遵循主/从架构每个节点上仅有唯一的一个TaskTracker

族群：
Hadoop子项目：

Hadoop Common：属于hadoop项目的核心部分，为Hadoop各子项目提供各种工具

HDFS：提供高吞吐量访问的分布式文件系统 GFS的开源实现

MapReduce：大型数据的分布式并行编程模型和程序执行框架 google的MapReduce的开源实现

Hadoop相关项目：

AVRO：作为Hadoop的RPC（远程过程调用模块），使Hadoop的RPC模块通信速度更快，数据结构更紧凑

Cassandra：是一套开源分布式的NoSQLogic数据库系统 Facebook开发集google BigTable 的数据模型与Amazon Dynamo的完全分布式的架构于一身

Hama: 为科学计算提供一个机遇整体同步并行计算技术的分布式计算框架

HBase：Apache Hadoop项目，开源基于列存储模型的分布式数据库

Hive：提供数据摘要和查询功能的数据仓库

Pig：是在MapReduce上构建的一种高级的数据流语言

ZooKeeper：用于解决分布式系统中一致性问题，是Chubby的开源实现

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/29500582/viewspace-1108228/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/29500582/viewspace-1108228/