-
上传测试文件HDFS目录
-
本地运行pyspark程序
进入pysaprk
-
查看当前运行模式
-
读取本地文件并显示项数
-
读取HDFS文件
-
在Hadoop YARN运行pysaprk
修改yarn文件yarn-site.xml
-
修改yarn-env.sh
sudo gedit /usr/local/hadoop/etc/hadoop/yarn-env.sh![在这里插入图片描述](https://img-blog.csdnimg.cn/20201004212743399.png#pic_center)
声明,由于版本问题,我把java1.8皇城java1了,其他配置不变
-
HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop pyspark --master yarn --deploy-mode client
-
查看当前运行模式
-
读取本地文件并显示项数
-
读取HDFS文件
-
Spark伪分布版安装
添加spark到系统环境变量
-
配置slaves
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201005141952948.png#pic_center)
-
spark-shell
-
进入Hadoop的sbin目录执行./start-all.sh启动
使用jps看下进程信息
进入spark的sbin目录下执行./start-all.sh启动spark,
启动后,jps查看最新进程![在这里插入图片描述](https://img-blog.csdnimg.cn/20201005142513318.png#pic_center)
-
http://localhost:8080,进入spark的web控制台页面
-
使用命令./bin/spark-shell启动SparkContex
-
通过访问http://localhost:4040进入spark-shell web控制台页面
-
关闭Spark
-
关闭Hadoop
-
重命名
为避免与Hadoop的命令冲突:
进入/usr/local/spark/sbin
start-all.sh文件改名为: start-all-spark.sh
stop-all.sh文件改名为: stop-all-spark.sh
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201005150426821.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0NhbmR5bHg=,size_16,color_FFFFFF,t_70#pic_center)
-
在Spark Stand alone运行pyspark
启动hadoop
-
启动Spark Stand alone
-
在Spark Standalone运行pyspark
pyspark --master spark://master:7077 -
http://localhost:8080/
-
查看当前运行模式
-
读取本地文件并显示项数
-
读取HDFS文件