在ubuntu 16.04上搭建spark平台

最新推荐文章于 2024-07-21 16:39:00 发布

云杉123

最新推荐文章于 2024-07-21 16:39:00 发布

阅读量3.3k

点赞数

分类专栏：学习hadoop和spark之路文章标签： ubuntu spark

学习hadoop和spark之路专栏收录该内容

3 篇文章 0 订阅

订阅专栏

参考链接：http://dblab.xmu.edu.cn/blog/1155/
搭建环境
Ubuntu14.04以上
Hadoop 2.6.0以上
Java JDK 1.7以上
Spark 2.0.0

学习spark要先搞清楚下面的几个问题
1、清楚几个概念，什么是spark, 什么时hadoop？
2、Hadoop和spark之间什么关系？
3、为什么选择spark而不是hadoop？
4、如何安装spark?
5、如何使用spark做编程计算？

针对前四个问题，在参考链接里已经说明，至于（5）则是一个需要时间来回答的问题。

先来简要说明下前1-4问题：
1、Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。
2、Spark 正如其名，最大的特点就是快（Lightning-fast），可比 Hadoop MapReduce 的处理速度快 100 倍。Spark可以独立安装使用，也可以和Hadoop一起安装使用。本教程中，我们采用和Hadoop一起安装使用，这样，就可以让Spark使用HDFS存取数据。
3、hadoop本身有好多缺点，而spark则没有。此外，Spark 提供了简单易用的 API，几行代码就能实WordCount。这也就是我为什么选择学习spark而不是hadoop的原因所在。
4、如何安装spark（http://dblab.xmu.edu.cn/blog/1155/）
需要说明的是，当安装好Spark以后，里面就自带了scala环境，不需要额外安装scala
Scala 是一门现代的多范式编程语言，志在以简练、优雅及类型安全的方式来表达常用编程模式。它平滑地集成了面向对象和函数语言的特性。Scala 运行于 Java 平台（JVM，Java 虚拟机），并兼容现有的 Java 程序。
Scala 是 Spark 的主要编程语言，如果仅仅是写 Spark 应用，并非一定要用 Scala，用 Java、Python 都是可以的。使用 Scala 的优势是开发效率更高，代码更精简，并且可以通过 Spark Shell 进行交互式实时查询，方便排查问题。
可以在spark的安装目录中启动spark-shell
./bin/spark-shell
可以在启动后使用”:quit”或者ctrl+D退出spark-shell。