Hadoop简介和家族成员介绍_hadoop的成员都有哪些-CSDN博客

本文链接：https://blog.csdn.net/u014394255/article/details/53449164

本文为博主原创，允许转载，但请声明原文地址：http://www.coselding.cn/article/2016/05/31/Hadoop简介和家族成员介绍/

1、 HDFS：分布式文件系统实现，来源GFS（Google File System）

2、 MapReduce：云计算框架，来源Google的MapReduce
3、一个Master和多个Slave：
Master：NameNode、JobTracker，SecondaryNameNode
Slaves：DataNode、TaskTracker
4、 Pig：Hadoop客户端，类似于SQL的面向数据流的Pig Latin语言；
作用：将Pig Latin语言翻译成MapReduce程序上传到集群进行运行，方便非Java程序员使用Hadoop
功能：排序，过滤，求和，聚组，关联等，支持自定义函数
运行方式：GruntShell，脚本方式，嵌入式
5、 HBase：Google的BigTable的开源实现
列式数据库
可集群化
可以使用shell、web、api等方式访问
适合高读写（Insert）的场景
HQL查询语言（HBase Query Language）（和Hibernate的不是同一个）
NoSQL的典型代表产品
6、 Hive：数据仓库工具，可以把Hadoop下的原始结构化的数据变成Hive中的表
支持一种几乎和SQL（92标准）一样的语言HiveQL。除了不支持更新、索引和事务，几乎SQL的其他特征都能支持
可以看成是从SQL到Map-Reduce的映射器
提供Shell、JDBC/ODBC、Thrift、Web等接口
7、 ZooKeeper：Google Chubby的开源实现
用于协调分布式系统上的各种服务，例如确认消息是否准确到达，防止单点失效，处理负载均衡等
应用场景：HBase，实现NameNode自动切换
工作原理：领导者，跟随者和选举过程
8、 Sqoop：用于Hadoop和关系型数据库之间交换数据
通过JDBC接口连入关系型数据库
9、 Avro：数据序列化工具
用于支持大批量数据交换的应用。支持二进制序列化的方式，可以便捷，快速地处理大量数据
动态语言友好，Avro提供的机制使动态语言可以很方便地处理Avro数据
Thrift接口
10、 Chukwa：架构在Hadoop之上的数据采集和分析框架
主要进行日志采集和分析
通过安装在收集节点的"代理"采集最原始的日志数据
代理将数据发送给收集器
收集器定时将数据写入Hadoop集群
指定定时启动的MapReduce作业对数据进行加工处理和分析
Hadoop基础管理中心（HICC）最终展示数据
11、 Cassandra：NoSQL，分布式的Key-Value型数据库，由FaceBook贡献
与HBase类似，与HBase类似，也是借鉴Google BigTable的思想体系

只有顺序写，没有随机写的设计，满足高负荷情形的性能需求

本文为博主原创，允许转载，但请声明原文地址：http://www.coselding.cn/article/2016/05/31/Hadoop简介和家族成员介绍/