《Spark 最佳实践》阅读笔记
此文为Up阅读《Spark 最佳实践》的过程所记的笔记。
Hadoop生态系统
Hadoop是谷歌大数据解决方案的开源实现,使用Java语言开发,其核心内容主要是两部分:分布式文件系统(HDFS)和MapReduce。
Hive
是HDFS和MapReduce上提供一个类似于SQL风格的抽象层,非常容易上手。HBase
是基于Hadoop的非关系型数据库,具备分布式、可扩展的特点,支持在几十亿行、数百万列的一张大表上进行实时、随机的读写访问。经典场景有各种数据仓库,比如淘宝用户历史订单查询等。Zookeeper
是提供分布式应用协调服务的系统,是谷歌的Chubby一个开源的实现,是Hadoop和HBase的重要组件。
持续更新...