跟我一起学Spark之——《Spark快速大数据分析》pdf版下载

18 篇文章 0 订阅
14 篇文章 2 订阅

链接:https://pan.baidu.com/s/1vjQCJLyiXzIj6gnCCDyv3g 
提取码:ib01

国庆第四天,去逛了半天的王府井书店,五层出电梯右边最里面,倒数第三排《数据结构》,找到了一本很不错的书《Spark快速大数据分析》,试读了下,我很喜欢,也很适合我,遂买之。


第1章 Spark数据分析导论 1 
第2章 Spark下载与入门 7 
第3章 RDD编程 21 
第4章 键值对操作 41 
第5章 数据读取与保存 63 
第6章 Spark编程进阶 87 
第7章 在集群上运行Spark 101 
第8章 Spark调优与调试 123 
第9章 Spark SQL 141 
第10章 Spark Streaming 161 
第11章 基于MLlib的机器学习 187 
作者简介 210 
封面介绍 210

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
本章将详细介绍搭建Spark的常用方法。Spark的单机便于测试,同时本章也会提到通过SSH用Spark的内置部署脚本搭建Spark集群,使用Mesos、Yarn或者Chef来部署Spark。对于Spark在云环境中的部署,本章将介绍在EC2(基本环境和EC2MR)上的部署。如果你的机器或者集群中已经部署了Spark,可以跳过本章直接开始使用Spark编程。 不管如何部署Spark,首先得从获得Spark的一个本,截止到写本书时,Spark的最新本为0.7。对于熟悉github的程序员,则可以从git://github.com/mesos/spark.git直接复制Spark项目。Spark提供基本源码压缩包,同时也提供已经编译好的压缩包。为了和Hadoop分布式文件系统(HDFS)交互,需要在编译源码前设定相应的集群中所使用的Hadoop本。对于0.7本的Spark,已经编译好的压缩包依赖的是1.0.4本的Hadoop。如果想更深入地Spark,推荐自编译基本源码,因为这样可以灵活地选择HDFS的本,如果想对Spark源码有所贡献,比如提交补丁,自己编译源码是必须的。你需要安装合适本的Scala和与之对应的JDK本。对于Spark的0.7.1本,需要Scala 2.9.2或者更高的Scala 2.9本(如2.9.3)。在写本书时,Linux发行Ubuntu的LTS本已经有Scala2.9.1,除此之外,最近的稳定本已经有2.9.2。Fedora18已经有2.9.2。软件包的更新信息可以查看到。Scala官网上的最新在。选择Spark支持的Scala本十分重要,Spark对Scala的本很敏感。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值