Hadoop的生态系统

  • Hadoop是谷歌大数据解决方案的开源实现,使用Java语言开发,其核心主要是两个部分:分布式文件系统(HDFS)和MapReduce。
  • Hive是在HDFS和MapReduce上提供一个类似于SQL风格的抽象层,非常容易上手。用户可以用数据库,表的概念来管理数据,使用SQL来访问,计算,不需要写MapReduce程序,SQL语法非常类似于关系型数据库,支持常见的select,join,group by,insert等操作。
  • HBase是基于Hadoop的非关系型数据库,具备分布式,可扩展的特点,支持在几十亿行,数百万列的一张大表上进行实时,随机的读写访问,典型场景有各种数据仓库,比如淘宝用户历史订单查询等。
  • ZooKeeper是提供分布式应用程序协调服务的系统,是谷歌的Chubby一个开源的实现,是Hadoop和HBase的重要组件,比如,Spark为了保证高可用,同时运行多台Master节点,但只有一台是活跃的,其他的都处于热备状态,通过ZooKeeper可以协调选择出当前活跃的节点,当这个活跃节点异常时,再从剩下的热备节点中重新选择一台活跃节点。
  • Hadoop是一个批处理,不擅长实时计算,如果需要实时或准实时的分析,可以使用Storm(Twitter),S4(雅虎),Akka等系统,另外,Hadoop也不擅长复杂的数据结构计算,比如前面提到的图计算,可以利用的开源系统有GraphLab和Spark的GraghX库
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值