Spark书籍连载-Spark高手之路：构建Spark集群1章1步

weixin_34226706

于 2014-07-27 11:16:00 发布

阅读量92

点赞数

文章标签： java 大数据运维

原文链接：https://my.oschina.net/u/1791057/blog/295220

版权

2019独角兽企业重金招聘Python工程师标准>>>

伴随着大数据相关技术和产业的逐步成熟，继Hadoop之后，Spark技术以其无可比拟的优势，发展迅速，将成为替代Hadoop的下一代云计算、大数据核心技术。《云计算分布式大数据Spark实战高手之路》是Spark亚太研究院推出的系列书籍。网络发布版为图文并茂方式，边学习，边演练，不需要任何前置知识，从零开始，循序渐进。我们将通过博客进行书籍内容的连载。

《云计算分布式大数据Spark实战高手之路---从零开始》：

不需要任何基础，带领您无痛入门Spark并能够轻松处理Spark工程师的日常编程工作，内容包括Spark集群的构建、Spark架构设计、RDD、Shark/SparkSQL、机器学习、图计算、实时流处理、Spark on Yarn、JobServer、Spark测试、Spark优化等。

《第一章：构建Spark集群》

对于90%以上想学习Spark的人而言，如何构建Spark集群是其最大的难点之一，为了解决大家构建Spark集群的一切困难，家林把Spark集群的构建分为了四个步骤，从零起步，不需要任何前置知识，涵盖操作的每一个细节，构建完整的Spark集群。

从零起步，构建Spark集群经典四部曲：

第一步：搭建Hadoop单机和伪分布式环境；
第二步：构造分布式Hadoop集群；
第三步：构造分布式的Spark集群；
第四步：测试Spark集群；

本文内容为构建Spark集群经典四部曲的第一步，从零起步构建Hadoop单机版本和伪分布式的开发环境，涉及：

开发Hadoop需要的基本软件；
安装每个软件；
配置Hadoop单机模式并运行Wordcount示例；
配置Hadoop伪分布式模式并运行Wordcount示例；

第一步：开发Hadoop需要的基本软件
我们的开发环境是在Windows 7上面构建Hadoop，此时需要Vmware虚拟机、Ubuntu的ISO镜像文件，Java SDK的支持、Eclipse IDE平台、Hadoop安装包等；
1、Vmware虚拟机，这里使用的是VMware Workstation 9.0.2 for Windows，具体的下载地址是https://my.vmware.com/cn/web/vmware/details?downloadGroup=WKST-902-WIN&productId=293&rPId=3526 如下图所示：

下载后在本地的保存如下图所示：

可以看出里面多了一个keys.txt文件，这个是安装Vwware时需要的序列码，读者需要从网络上下载；

2、Ubuntu的ISO镜像文件，家林这里使用的ubuntu-12.10-desktop-i386，具体下载地址为：http://www.ubuntu.org.cn/download/desktop/alternative-downloads 如下图所示：

下载后，在本地电脑的保存为：

3、Java SDK的支持，使用的是最新的“jdk-7u60-linux-i586.tar.gz”，具体的下载地址http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html 如下图所示：

点击下载，保存在了Ubuntu系统如下图所示：

4、下载最新稳定版本的Hadoop，下载的是“hadoop-1.1.2-bin.tar.gz ”，具体官方下载地址为http://mirrors.cnnic.cn/apache/hadoop/common/stable/ 下载后在本地的保存为：

转载于:https://my.oschina.net/u/1791057/blog/295220

weixin_34226706

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。