在ubuntu 16.04上搭建spark平台

参考链接:http://dblab.xmu.edu.cn/blog/1155/
搭建环境
Ubuntu14.04以上
Hadoop 2.6.0以上
Java JDK 1.7以上
Spark 2.0.0

学习spark要先搞清楚下面的几个问题
1、清楚几个概念,什么是spark, 什么时hadoop?
2、Hadoop和spark之间什么关系?
3、为什么选择spark而不是hadoop?
4、如何安装spark?
5、如何使用spark做编程计算?

针对前四个问题,在参考链接里已经说明,至于(5)则是一个需要时间来回答的问题。

先来简要说明下前1-4问题:
1、Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。
2、Spark 正如其名,最大的特点就是快(Lightning-fast),可比 Hadoop MapReduce 的处理速度快 100 倍。Spark可以独立安装使用,也可以和Hadoop一起安装使用。本教程中,我们采用和Hadoop一起安装使用,这样,就可以让Spark使用HDFS存取数据。
3、hadoop本身有好多缺点,而spark则没有。此外,Spark 提供了简单易用的 API,几行代码就能实WordCount。这也就是我为什么选择学习spark而不是hadoop的原因所在。
4、如何安装spark(http://dblab.xmu.edu.cn/blog/1155/
需要说明的是,当安装好Spark以后,里面就自带了scala环境,不需要额外安装scala
Scala 是一门现代的多范式编程语言,志在以简练、优雅及类型安全的方式来表达常用编程模式。它平滑地集成了面向对象和函数语言的特性。Scala 运行于 Java 平台(JVM,Java 虚拟机),并兼容现有的 Java 程序。
Scala 是 Spark 的主要编程语言,如果仅仅是写 Spark 应用,并非一定要用 Scala,用 Java、Python 都是可以的。使用 Scala 的优势是开发效率更高,代码更精简,并且可以通过 Spark Shell 进行交互式实时查询,方便排查问题。
可以在spark的安装目录中启动spark-shell
./bin/spark-shell
可以在启动后使用”:quit”或者ctrl+D退出spark-shell。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值