1.概述
spark官网:http://spark.apache.org
spark是一个围绕速度,易用性和复杂分析架构的大数据处理框架;
他有如下优势:
- 运行速度快。spark是基于内存的,是hadoop的是100倍;
- 易用性。可以使用java,scala,python或者其他语言来写;
- mapReduce,还支持sql查询,流数据,机器学习和图计算;
- spark不仅仅可以处理hdfs上的数据,还可以处理其他数据。
2.安装
首先需要scala和spark的两个压缩包:
链接:https://pan.baidu.com/s/1GOA16GtKa6U9mUZR7k9uBw
提取码:8l3o
然后打开远程连接(事先搭建好的集群服务器):
找到scala压缩包所在目录,解压
tar -zxvf scala-2.10.5.tgz
找到spark压缩包所在目录,解压
tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz
3.配置系统变量
编辑系统配置文件
vi /etc/profile
生效
source /etc/profile
4.进入spark shell
spark-shell
至此,就可以运行scala函数了,spark配置成功!