1 文章说明
需要用到spark,特地写一个文章作为入门总结。
环境介绍:
- 系统:centos7
- python:python2.7.5
- java:java1.8.0
- hadoop:hadoop2.7
- spark:spark3.0
- 参考文档:http://spark.apache.org/docs/latest/quick-start.html
2 spark简介
简单地说,spark扩展了MapReduce计算模型,数据在内存中并行式计算。
3 安装spark
①验证java是否安装:java -version,已安装为java1.8.0。
②验证Scala是否安装:scala -version。
如果未安装scala,scala的安装步骤:
- 1)下载scala,下载网址:https://www.scala-lang.org/download/,本次选择了scala-2.13.1.tgz文件。
- 2)执行命令tar -zxvf scala-2.13.1.tgz。
- 3)设置环境变量:切换到root账户,在/etc/profile文件中配置export SCALA_HOME=/home/grid/scala和export PATH=$PATH:$SCALA_HOME/bin,然后source /etc/profile,gird账户也需要source /etc/profile。
- 4)scala -version验证是否安装成功。
③下载和安装spark:
- 1)本次下载的是spark-3.0.0-preview-bin-hadoop2.7.tgz。
- 2)解压文件,tar -zxvf spark-3.0.0-preview-bin-hadoop2.7.tgz。
- 3)输入spark-shell进入到spark,py