Hadoop的生态系统

最新推荐文章于 2024-07-10 18:26:25 发布

101之歌

最新推荐文章于 2024-07-10 18:26:25 发布

阅读量230

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qxf1374268/article/details/79322106

版权

大数据专栏收录该内容

27 篇文章 0 订阅

订阅专栏

                    
                    Hadoop是谷歌大数据解决方案的开源实现，使用Java语言开发，其核心主要是两个部分：分布式文件系统(HDFS)和MapReduce。
Hive是在HDFS和MapReduce上提供一个类似于SQL风格的抽象层，非常容易上手。用户可以用数据库，表的概念来管理数据，使用SQL来访问，计算，不需要写MapReduce程序，SQL语法非常类似于关系型数据库，支持常见的select,join,group by,insert等操作。
HBase是基于Hadoop的非关系型数据库，具备分布式，可扩展的特点，支持在几十亿行，数百万列的一张大表上进行实时，随机的读写访问，典型场景有各种数据仓库，比如淘宝用户历史订单查询等。
ZooKeeper是提供分布式应用程序协调服务的系统，是谷歌的Chubby一个开源的实现，是Hadoop和HBase的重要组件，比如，Spark为了保证高可用，同时运行多台Master节点，但只有一台是活跃的，其他的都处于热备状态，通过ZooKeeper可以协调选择出当前活跃的节点，当这个活跃节点异常时，再从剩下的热备节点中重新选择一台活跃节点。
Hadoop是一个批处理，不擅长实时计算，如果需要实时或准实时的分析，可以使用Storm（Twitter），S4（雅虎），Akka等系统，另外，Hadoop也不擅长复杂的数据结构计算，比如前面提到的图计算，可以利用的开源系统有GraphLab和Spark的GraghX库