Ubuntu中使用spark SQL的前提条件
要成功使用 spark-sql 就要启动 hive ,而启动 hive 就要启动 Hadoop ,而要成功启动 pyspark 就要启动 spark。
1、启动Hadoop
【在$HADOOP_HOME/sbin目录下用命令start-all.sh】
// 进入相应的工作目录
cd /home/syan/Hbase/hadoop/sbin
// 启动
start-all.sh
注:如果你不想每次都进入这个目录去执行这个文件,那你可以选择设置临时环境或永久性环境。设置方法请看Ubuntu中设置PATH变量值
用jps查看是否有相关进程
2、启动 Spark Standalone 模式
【即在$SPARK_HOME/sbin下运行start-spark.sh文件】
// 进入相应的工作目录
cd /home/syan/Spark/spark/sbin
// 启动
start-spark.sh
用jps查看是否有相关进程
3、启动pyspark环境
【即在$SPARK_HOME/bin下执行pyspark命令】
// 进入相应的工作目录
cd /home/syan/Spark/spark/bin
// 改成自己的主机名,然后启动
pyspark --master spark://syan:7077
4、启动metastore
注:在启动的spark的时候要再开一个独立的会话在hive解压目录下的bin目录下执行这条命令(/home/syan/Hive/hive/bin),使得metastore开起来
hive --service metastore