Pyspark（下）

最新推荐文章于 2024-09-13 08:55:15 发布

咸鱼在厦大

最新推荐文章于 2024-09-13 08:55:15 发布

阅读量150

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/Candylx/article/details/108922723

版权

上传测试文件HDFS目录
本地运行pyspark程序
进入pysaprk
查看当前运行模式
读取本地文件并显示项数
读取HDFS文件
在Hadoop YARN运行pysaprk
修改yarn文件yarn-site.xml

修改yarn-env.sh
sudo gedit /usr/local/hadoop/etc/hadoop/yarn-env.sh

![在这里插入图片描述](https://img-blog.csdnimg.cn/20201004212743399.png#pic_center)

声明，由于版本问题，我把java1.8皇城java1了，其他配置不变

HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop pyspark --master yarn --deploy-mode client
查看当前运行模式
读取本地文件并显示项数
读取HDFS文件
Spark伪分布版安装
添加spark到系统环境变量

配置slaves
在这里插入图片描述

   ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201005141952948.png#pic_center)

spark-shell
进入Hadoop的sbin目录执行./start-all.sh启动
使用jps看下进程信息
进入spark的sbin目录下执行./start-all.sh启动spark，
启动后，jps查看最新进程
```
   ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201005142513318.png#pic_center)
```
http://localhost:8080，进入spark的web控制台页面
使用命令./bin/spark-shell启动SparkContex
通过访问http://localhost:4040进入spark-shell web控制台页面
关闭Spark
关闭Hadoop
重命名
为避免与Hadoop的命令冲突：
进入/usr/local/spark/sbin
start-all.sh文件改名为： start-all-spark.sh
stop-all.sh文件改名为： stop-all-spark.sh

![在这里插入图片描述](https://img-blog.csdnimg.cn/20201005150426821.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0NhbmR5bHg=,size_16,color_FFFFFF,t_70#pic_center)