关闭

[置顶] 我的新书《Hadoop+Spark生态系统操作与实战指南》已经上架

3124人阅读 评论(26) 收藏 举报
分类:

致 青 春

       赶在儿子1岁生日之际,赶在我30岁告别之际,我撰写《Hadoop+Spark生态系统操作与实战指南》一书,作为我儿子的生日礼物。我借【时光之手】合上我30年青春的最后一页,我借【此书】记录下我的青春,我借【清华大学出版社】将我青春永远留在【清华大学】。

       我的新书《Hadoop+Spark生态系统操作与实战指南》,清华大学出版社,已经在京东、天猫、当当、亚马逊、新华书店全面上架。

       本书由:清华大学教授、中科院教授、百人计划研究员、传智播客副总裁、搜狐视频技术总监、Oracle高级讲师【联袂推荐】

       购书点击地址 : (京东)    (天猫)    (当当)   


【本书QQ群:275243793,扫描上面二维码,任何问题可在群内讨论】

本书目录

第1章 Hadoop概述 1
       1.1 Hadoop简介 1
       1.2 Hadoop版本和生态系统 3
       1.3 MapReduce简介 7
       1.4 HDFS简介 8
       1.5 Eclipse+Java开发环境搭建 10
              1.5.1 Java安装 10
              1.5.2 Maven安装 11
              1.5.3 Eclipse安装和配置 12
              1.5.4 Eclipse创建Maven项目 16
              1.5.5 Eclipse其余配置 19
       1.6 小结 21

第2章 Hadoop集群搭建 22
       2.1 虚拟机简介 22
       2.2 虚拟机配置 24
       2.3 Linux系统设置 31
       2.4 Apache版本Hadoop集群搭建 36
       2.5 CDH版本Hadoop集群搭建 44
              2.5.1 安装前期准备 44
              2.5.2 Cloudera Manager安装 45
              2.5.3 CDH安装 46
       2.6 小结 55

第3章 Hadoop基础与原理 56
       3.1 MapReduce原理介绍 56
              3.1.1 MapReduce的框架介绍 56
              3.1.2 MapReduce的执行步骤 58
       3.2 HDFS原理介绍 59
              3.2.1 HDFS是什么 59
              3.2.2 HDFS架构介绍 59
       3.3 HDFS实战 62
              3.3.1 HDFS客户端的操作 62
              3.3.2 Java操作HDFS 65
       3.4 YARN原理介绍 69
       3.5 小结 71

第4章 ZooKeeper实战 72
       4.1 ZooKeeper原理介绍 72
              4.1.1 ZooKeeper基本概念 72
              4.1.2 ZooKeeper工作原理 73
              4.1.3 ZooKeeper工作流程 76
       4.2 ZooKeeper安装 78
       4.3 ZooKeeper实战 80
              4.3.1 ZooKeeper客户端的操作 80
              4.3.2 Java操作ZooKeeper 81
              4.3.3 Scala操作ZooKeeper 85
       4.4 小结 87

第5章 MapReduce实战 88
       5.1 前期准备 88
       5.2 查看YARN上的任务 95
       5.3 加载配置文件 95
       5.4 MapReduce实战 96
       5.5 小结 121

第6章 HBase实战 122
       6.1 HBase简介及架构 122
       6.2 HBase安装 127
       6.3 HBase实战 129
              6.3.1 HBase客户端的操作 129
              6.3.2 Java操作HBase 132
              6.3.3 Scala操作HBase 136
       6.4 小结 140

第7章 Hive实战 141
       7.1 Hive介绍和架构 141
       7.2 Hive数据类型和表结构 143
       7.3 Hive分区、桶与倾斜 144
       7.4 Hive安装 146
       7.5 Hive实战 148
              7.5.1 Hive客户端的操作 148
              7.5.2 Hive常用命令 154
              7.5.3 Java操作Hive 155
       7.6 小结 161

第8章 Scala实战 162
       8.1 Scala简介与安装 162
       8.2 IntelliJ IDEA开发环境搭建 164
              8.2.1 IntelliJ IDEA简介 164
              8.2.2 IntelliJ IDEA安装 164
              8.2.3 软件配置 166
       8.3 IntelliJ IDEA建立Maven项目 171
       8.4 基础语法 176
       8.5 函数 179
       8.6 控制语句 181
       8.7 函数式编程 184
       8.8 模式匹配 189
       8.9 类和对象 191
       8.10 Scala 异常处理 194
       8.11 Trait(特征) 195
       8.12 Scala文件I/O 196
       8.13 作业 198
              8.13.1 九九乘法表 198
              8.13.2 冒泡排序 199
              8.13.3 设计模式Command 200
              8.13.4 集合对称判断 202
              8.13.5 综合题 204
       8.14 小结 206

第9章 Flume实战 207
       9.1 Flume概述 207
       9.2 Flume的结构 208
       9.3 Flume安装 211
       9.4 Flume实战 212
       9.5 小结 214

第10章 Kafka实战 215
       10.1 Kafka概述 215
              10.1.1 简介 215
              10.1.2 使用场景 217
       10.2 Kafka设计原理 218
       10.3 Kafka主要配置 222
       10.4 Kafka客户端操作 224
       10.5 Java操作Kafka 226
              10.5.1 生产者 226
              10.5.2 消费者 228
       10.6 Flume连接Kafka 229
       10.7 小结 233

第11章 Spark实战 234
       11.1 Spark概述 234
       11.2 Spark基本概念 234
       11.3 Spark算子实战及功能描述 238
              11.3.1 Value型Transformation算子 238
              11.3.2 Key-Value型Transformation算子 242
              11.3.3 Actions算子 245
       11.4 Spark Streaming实战 248
       11.5 Spark SQL和DataFrame实战 253
       11.6 小结 266

第12章 大数据网站日志分析项目 267
       12.1 项目介绍 267
       12.2 网站离线项目 267
              12.2.1 业务框架图 267
              12.2.2 子服务“趋势分析”详解 268
              12.2.3 表格的设计 272
              12.2.4 提前准备 274
              12.2.5 项目步骤 287
       12.3 网站实时项目 297
              12.3.1 业务框架图 297
              12.3.2 子服务“当前在线”详解 297
              12.3.3 表格的设计 302
              12.3.4 提前准备 304
              12.3.5 项目步骤 327
       12.4 小结 337

7
0
查看评论

Hadoop+Spark生态系统操作与实战指南NginxData

  • 2017-12-21 14:09
  • 20KB
  • 下载

《Hadoop + Spark生态系统 操作与实战指南》

《Hadoop + Spark生态系统 操作与实战指南》 内 容 简 介 本书用于Hadoop+Spark快速上手,本书全面解析Hadoop和Spark生态系统,通过原理解说和实例操作每一个组件,让读者能够轻松跨入大数据分析与开发的大门。 全书共12章,大致分为3个部分,第1部分(第1...
  • brucexia
  • brucexia
  • 2017-09-11 11:58
  • 843

Hadoop与Spark技术入门

1 Hadoop系统概述1.1 Hadoop简介Hadoop最初起源于搜索引擎子项目Nutch,是Apache基金会的开源大数据计算平台,其核心组件设计包含有分布式文件系统HDFS及分布式计算框架MapReduce。随着Hadoop项目的开源发展,逐渐扩展成为一个包含Zookeeper、Hive等众...
  • tmac1027
  • tmac1027
  • 2017-09-06 10:53
  • 144

大数据Spark企业级实战 PDF 下载 和目录

大数据,Spark,企业级实战,pdf完整版,目录
  • wyx100
  • wyx100
  • 2016-08-02 22:25
  • 3314

Spark生态和Spark架构

Spark概览 Spark 是一个通用的大规模数据快速处理引擎。可以简单理解为 Spark 就是一个大数据分布式处理框架。 Spark是基于map reduce算法实现的分布式计算框架,但不同的是Spark的中间输出和结果输出可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地用于...
  • wwwxxdddx
  • wwwxxdddx
  • 2016-04-05 18:04
  • 4050

解读2015之Spark篇:新生态系统的形成

http://www.tuicool.com/articles/RJ7Vza   解读2015之Spark篇:新生态系统的形成 时间 2016-01-07 12:00:00 InfoQ 原文  http://www.infoq.com/cn/...
  • u013571243
  • u013571243
  • 2016-05-22 12:43
  • 865

Spark生态系统项目

现在Apache Spark已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出5个使用广泛的第三方项目。Spark官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是Spark官方给出的生态系统组件       &#...
  • LW_GHY
  • LW_GHY
  • 2016-03-20 21:15
  • 915

001-spark生态系统介绍

spark生态系统介绍,主要包括spark概念;spark历史;spark生产系统
  • shenfuli
  • shenfuli
  • 2015-09-01 20:02
  • 1483

Spark入门实战指南——Spark生态圈+第一个Spark程序

一、Spark及其生态圈简介 1.目前大数据处理场景有以下几个类型: 1.  复杂的批量处理(BatchData Processing),偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间可能是在数十分钟到数小时; 2.  基于历史数据的交互式查询(Interactiv...
  • lishuan182
  • lishuan182
  • 2016-08-29 16:04
  • 1352

hadoop+spark搭建文档

  • 2016-06-20 13:43
  • 13.33MB
  • 下载
    【个人简介】
    姓名:余辉

    地点:北京昌平

    学历:中科院硕士

    QQ :348835027

    微信:silentwolfyh

    我的新书【点击图片】
    (京东)(天猫)(当当)

    本书QQ群:275243793
    个人资料
    • 访问:514962次
    • 积分:7874
    • 等级:
    • 排名:第3180名
    • 原创:286篇
    • 转载:23篇
    • 译文:24篇
    • 评论:95条
    博客专栏