Hadoop简介和家族成员介绍

本文为博主原创,允许转载,但请声明原文地址:http://www.coselding.cn/article/2016/05/31/Hadoop简介和家族成员介绍/

1、 HDFS:分布式文件系统实现,来源GFS(Google File System)

2、 MapReduce:云计算框架,来源Google的MapReduce
3、 一个Master和多个Slave:
   Master:NameNode、JobTracker,SecondaryNameNode
   Slaves:DataNode、TaskTracker
4、 Pig:Hadoop客户端,类似于SQL的面向数据流的Pig Latin语言;
   作用:将Pig Latin语言翻译成MapReduce程序上传到集群进行运行,方便非Java程序员使用Hadoop
   功能:排序,过滤,求和,聚组,关联等,支持自定义函数
   运行方式:GruntShell,脚本方式,嵌入式
5、 HBase:Google的BigTable的开源实现
   列式数据库
   可集群化
   可以使用shell、web、api等方式访问
   适合高读写(Insert)的场景
   HQL查询语言(HBase Query Language)(和Hibernate的不是同一个)
   NoSQL的典型代表产品
6、 Hive:数据仓库工具,可以把Hadoop下的原始结构化的数据变成Hive中的表
   支持一种几乎和SQL(92标准)一样的语言HiveQL。除了不支持更新、索引和事务,几乎SQL的其他特征都能支持
   可以看成是从SQL到Map-Reduce的映射器
   提供Shell、JDBC/ODBC、Thrift、Web等接口
7、 ZooKeeper:Google Chubby的开源实现
   用于协调分布式系统上的各种服务,例如确认消息是否准确到达,防止单点失效,处理负载均衡等
   应用场景:HBase,实现NameNode自动切换
   工作原理:领导者,跟随者和选举过程
8、 Sqoop:用于Hadoop和关系型数据库之间交换数据
   通过JDBC接口连入关系型数据库
9、 Avro:数据序列化工具
   用于支持大批量数据交换的应用。支持二进制序列化的方式,可以便捷,快速地处理大量数据
   动态语言友好,Avro提供的机制使动态语言可以很方便地处理Avro数据
   Thrift接口
10、 Chukwa:架构在Hadoop之上的数据采集和分析框架
   主要进行日志采集和分析
   通过安装在收集节点的"代理"采集最原始的日志数据
   代理将数据发送给收集器
   收集器定时将数据写入Hadoop集群
   指定定时启动的MapReduce作业对数据进行加工处理和分析
   Hadoop基础管理中心(HICC)最终展示数据
11、 Cassandra:NoSQL,分布式的Key-Value型数据库,由FaceBook贡献
   与HBase类似,与HBase类似,也是借鉴Google BigTable的思想体系

   只有顺序写,没有随机写的设计,满足高负荷情形的性能需求

本文为博主原创,允许转载,但请声明原文地址:http://www.coselding.cn/article/2016/05/31/Hadoop简介和家族成员介绍/

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值