想了解大数据的鼻祖Hadoop技术栈，这里有一份优质书单推荐！

最新推荐文章于 2022-05-22 14:47:18 发布

Java技术江湖

最新推荐文章于 2022-05-22 14:47:18 发布

阅读量1k

点赞数 1

分类专栏：程序员书单文章标签：数据仓库大数据分布式 hadoop 数据开发

本文链接：https://blog.csdn.net/a724888/article/details/106515989

版权

程序员书单专栏收录该内容

28 篇文章 7 订阅

订阅专栏

如何用形象的比喻描述大数据的技术生态？Hadoop、Hive、Spark 之间是什么关系？对于大部分人来说都是傻傻分不清楚。

今年来大数据、人工智能获得了IT界大量的关注。如果一个企业不玩大数据，都不好意思说自己是在IT圈混的。我敢打赌，你在中关村西二旗地铁站溜一圈，保准你会听到如下名词：Hadoop、Spark、MapReduce、NoSQL、离线计算、实时计算、实时推送等等一大串名称。

程序猿们就是有这么实在，坐在地铁上还能那么投入的讨论技术问题。那么，这些听起来高大上的技术，究竟都是干什么用的呢？他们之间的有什么区别和联系？

通常，一个技术的兴起，都是由现实需求驱动的。了解了我们面临的问题，就能更好的理解各个大数据技术的使用场景，各类大数据技术的区别也就显而易见了。

今天这一份书单，我们就将从Hadoop生态圈开始入手，推荐几本关于Hadoop生态圈的优质书籍！

Hadoop技术栈系列书单

Hadoop权威指南：大数据的存储与分析(第4版)

本书结合理论和实践，由浅入深，全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。

全书5部分24章，第Ⅰ部分介绍Hadoop基础知识，主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发；MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维，主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目，主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例，分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。

本书是一本专业、全面的Hadoop参考书和工具书，阐述了Hadoop生态圈的新发展和应用，程序员可以从中探索海量数据集的存储和分析，管理员可以从中了解Hadoop集群的安装和运维。

作者简介

TomWhite是杰出的Hadoop专家之一。自2007年2月以来，TomWhite一直是ApacheHadoop的提交者(committer)，也是Apache软件基金会的成员。Tom是Cloudera的软件工程师，他是Cloudera的首批员工，对Apache和Cloudera做出了举足轻重的贡献。

译者简介

王海博士，解放军理工大学通信工程学院教授，博导，教研中心主任，长期从事无线自组网网络的设计与研发工作，主持国家自然科学基金、国家863计划课题等多项课题，近5年获军队科技进步二等奖1项，三等奖6项，作为di一发明人申请国家发明专利十余项，发表学术论文50余篇。

刘喻博士，长期从事软件开发、软件测试和软件工程化管理工作，目前任教于清华大学软件所。

吕粤海，长期从事军事通信网络技术研究与软件开发工作，先后通过华为光网络高级工程师认证、思科网络工程师认证。

深度剖析Hadoop HDFS

本书基于Hadoop 2.7.1版本进行分析，全面描述了HDFS 2.X的核心技术与解决方案，书中描述了HDFS内存存储、异构存储等几大核心设计，包括源码细节层面的分析，对于HDFS中比较特殊的几个场景过程也做了细粒度的分析。

阅读本书可以帮助读者从架构设计与功能实现角度了解HDFS 2.X，同时还能学习HDFS 2.X框架中优秀的设计思想、设计模式、Java语言技巧等。这些对于读者全面提高自己分布式技术水平有很大的帮助。

本书分为三大部分：核心设计篇、细节实现篇、解决方案篇，“核心设计篇”包括HDFS的数据存储原理、HDFS的数据管理与策略选择机制、HDFS的新颖功能特性；“细节实现篇”包括HDFS的块处理、流量处理等细节，以及部分结构分析；“解决方案篇”包括HDFS的数据管理、HDFS的数据读写、HDFS的异常场景等。本书适合于云计算相关领域研发人员、云计算相关运维工程师、高年级研究生或本科、热衷于分布式计算研究的人。

作者简介

林意群，唯品会上海研发中心数据应用部研发工程师，Apache Hadoop Committer，主要专注于HDFS模块的研究。对大数据处理、分布式计算兴趣浓厚，在实际工作中努力钻研，分享了大量技术文章，贡献了很多实践经验。

HBase不睡觉书

HBase是Apache旗下一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术可在廉价的PC服务器上搭建大规模的存储化集群，使用HBase可以对数十亿级别的大数据进行实时性的高性能读写，在满足高性能的同时还保证了数据存取的原子性。

本书共分为9章，由浅入深地讲解HBase概念、安装、配置、部署，让读者对HBase先有一个感性认识，再从应用角度介绍了高级用法、监控和性能调优。既兼顾了初学者，也适用于想要深入学习HBase的读者。

本书适合于以前没有接触过HBase，或者了解HBase，并希望能够深入掌握的读者，适合HBase应用开发人员和系统管理人员学习使用。

作者简介

杨曦，就职于硅谷某上市公司，对大数据、云计算等技术有较深研究以及丰富的项目实践经验。热衷编写开源项目、撰写技术博客以及折腾各种技术项目。

Hive实战

Hive“出身名门”，是最初由Facebook公司开发的数据仓库工具。它简单且容易上手，是深入学习Hadoop技术的一个很好的切入点。

本书由数据库专家和大数据专家共同撰写，具体内容包括：Hive的安装和配置，其核心组件和架构，Hive数据操作语言，如何加载、查询和分析数据，Hive的性能调优以及安全性，等等。本书旨在为读者打牢基础，从而踏上专业的大数据处理之旅。

作者简介

斯科特·肖（Scott Shaw）
Hortonworks公司解决方案工程师，曾为微软公司的商业智能项目担任顾问，拥有近20年的数据管理经验。作为演讲者和培训师，他致力于普及分布式计算、大数据概念、商业智能、Hive和Hadoop。

安德烈亚斯·弗朗索瓦·弗穆尔恩（Andreas Fran?ois Vermeulen）
集数据科学家、数据仓库架构师、博士研究员、企业顾问等角色于一身，曾获“英国数据科学技术先锋”称号，广泛涉足数据工程、商业智能、云架构、深度学习等多个领域。

安库尔·古普塔（Ankur Gupta）
Hortonworks公司解决方案工程师，曾在Oracle公司担任顾问，有多年从事数据架构师和Oracle数据库管理员的经验，著有Oracle GoldenGate 11g Complete Cookbook。