上传scala和spark架包
scala官网下载:https://www.scala-lang.org/download/
spark官网下载:http://spark.apache.org/downloads.html
解压然后重命名
tar -zxf scala-2.12.7.tgz
mv scala-2.12.7 scala
tar -zxf spark-2.3.2-bin-hadoop2.7.tgz
mv spark-2.3.2-bin-hadoop2.7 spark
然后配置scala 和spark的环境变量:
vi /etc/profile
#scala
export SCALA_HOME=/home/scala
export PATH=${SCALA_HOME}/bin:$PATH
#spark
export SPARK_HOME=/home/spark/
export PATH=${SPARK_HOME}/bin:$PATH
然后加载环境变量
source /etc/profile
然后输入scala
scala
成功结构如下
进入spark 的conf里面拷贝一个,现在我只配置单机可运行的即可。
cp spark-env.sh.template spark-env.sh
cp slaves.template slaves
加入以下配置:
vi slaves
加入localhost
vi spark-env.sh
#java
export JAVA_HOME=/home/jdk
#scala
export SCALA_HOME=/home/scala
#Spark主节点的IP
export SPARK_MASTER_IP=hadoop
#Spark主节点的端口号
export SPARK_MASTER_PORT=7077
HADOOP_CONF_DIR这个hadoop的配置读取文件,我并没有配置,所以在写代码读取hadoop的数据就需要加入地址。
然后进入spark/sbin目录启动spark:cd /home/spark/sbin
./start-all.sh
jps
然后再浏览器上输入: 你spark安装的IP:8080,我的IP是192.168.131.155,所以输入 192.168.131.155:8080
然后我们在用spark-shell的方式来看看,进入spark目录下的bin
cd /home/spark/bin
启动spark-shell,我们需要加载mysql 的驱动包然后启动
./spark-shell --driver-class-path /home/hive/lib/mysql-connector-java-5.1.44.jar