hadoop概要

hadoop 


hadoop 简介:
   hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了google的MapReduce编程模型和框架,
   把应用程序分割成效的工作单元,并把这些单元放到集群节点上执行。


角色:
NameNode:
          NameNode是HDFS守护进程,负责记录文件如何分割成数据块的,以及这些数据块分别被存储在哪些数据节点上
          主要功能:对内存及I/O进行集中管理


DataNode:
         DataNode属于集群中的每个服务器都运行的一个后台程序,负责把HDFS数据块读写到本地的文件系统


Secondary NameNode:
         Secondary NameNode用户监控HDFS状态的辅助后台程序,做NameNode的备用


JobTracker:
          JobTracker后台进程用来连接应用程序与Hadoop。  每个Hadoop集群只有一个JobTracker,一般运行在集群的Master节点上


TaskTracker:
         TaskTracker与负责存储数据的DataNode结合,遵循主/从架构   每个节点上仅有唯一的一个TaskTracker




族群:
Hadoop子项目:


   Hadoop Common: 属于hadoop项目的核心部分,为Hadoop各子项目提供各种工具


   HDFS: 提供高吞吐量访问的分布式文件系统   GFS的开源实现


   MapReduce:大型数据的分布式并行编程模型和程序执行框架   google的MapReduce的开源实现


Hadoop相关项目:
   
   AVRO:作为Hadoop的RPC(远程过程调用模块),使Hadoop的RPC模块通信速度更快,数据结构更紧凑


   Cassandra:是一套开源分布式的NoSQLogic数据库系统  Facebook开发    集google BigTable 的数据模型与Amazon Dynamo的完全分布式的架构于一身


   Hama: 为科学计算提供一个机遇整体同步并行计算技术的分布式计算框架


   HBase:Apache Hadoop项目,开源  基于列存储模型的分布式数据库


   Hive:提供数据摘要和查询功能的数据仓库


   Pig:是在MapReduce上构建的一种高级的数据流语言
  
   ZooKeeper:用于解决分布式系统中一致性问题,是Chubby的开源实现



         

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/29500582/viewspace-1108228/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/29500582/viewspace-1108228/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值