spark的配置与安装

最新推荐文章于 2024-08-14 11:12:16 发布

bigFish啦啦啦

最新推荐文章于 2024-08-14 11:12:16 发布

阅读量1.1k

点赞数

分类专栏：大数据文章标签： spark 安装配置 scala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011391905/article/details/37533015

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

"ApacheSpark is a fast and general engine for large-scale dataprocessing."

实习需要调研Spark和SparkStreaming，因此特地来研究一下咯～

首先，它是一个快速/通用的引擎，用于大数据处理。按照官网的说法："Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk."

然后关键词我想应该是“开源的数据分析基于内存分布式集群计算框架”。

它同时支持Batch（批量数据）、Interactive（交互查询）、Streaming（实施数据流）的处理，且兼容支持HDFS和S3等分布式文件系统，可以部署在YARN和Mesos等流行的集群资源管理器之上。后面编译的过程中可以看到它自动下载了非常多的jar，包括hadoop、Hbase、cassandra均能和它一起工作..

下面就来看看如何配置与安装咯。

系统：64位Ubuntu12.04

1.配置java环境

网上教程一大把～这里不说咯。

2.配置scala环境

去官网下载最新的scala二进制包

解压

tar -zxf scala-2.11.1.tgz

复制

cp -r scala-2.11.1/ usr/bin/

设置环境变量

sudo gedit /etc/profile

于文件中添加

export PATH=$PATH:/usr/bin/scala-2.11.1/bin

保存并退出，刷新

source /etc/profile

测试一下：

scala -version

3.编译spark

去官网下载spark的source file

同样的解压之后进入spark执行编译指令

stedraw@ubuntu:~/spark-1.0.0$ sbt/sbt assembly
这个过程中它会下载非常多的jar，最后compile，整个过程比较漫长，时长受网速和电脑性能一定影响...正常情况下也要一个半小时左右。

中间半天不动了，有可能网络不畅，ctrl+c退出，重新执行sbt，可以继续之前的操作。

（compiling的部分就不要中断了，会从头编译。）

最后，进入/spark-1.0.0/bin，执行

./spark-shell

就可以交互式编程啦。

bigFish啦啦啦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark的配置与安装

"ApacheSpark is a fast and general engine for large-scale dataprocessing."
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。