Python Spark的介绍与安装(2) 学习笔记八

最新推荐文章于 2024-04-05 14:55:41 发布

置顶

停止的闹钟

最新推荐文章于 2024-04-05 14:55:41 发布

阅读量187

点赞数 2

分类专栏： Python Spark Hadoop 机器学习大数据文章标签： pyspark spark PythonSpark 读取HDFS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45122866/article/details/99640773

版权

这篇博客详细介绍了如何在本地、Hadoop YARN和Spark Standalone Cluster环境下安装和运行Python Spark（pyspark）。通过创建测试文件、启动Hadoop集群、读取HDFS文件等步骤，展示了pyspark的基本操作，包括在不同模式下查看运行状态、读取文件等。

摘要由CSDN通过智能技术生成

8.5创建测试用的文本文件

8.5.1复制LICENSE.txt

cp /usr/local/hadoop/LICENSE.txt ~/wordcount/input
ll ~/wordcount/input
在这里插入图片描述

8.5.2启动所有虚拟服务器

在这里插入图片描述

8.5.3进入master虚拟机，启动Hadoop Multi-Node Cluster

start-all.sh

8.5.4上传测试文件HDFS目录

hadoop fs -mkdir -p /user/hduser/wordcount/input
cd ~/wordcount/input
hadoop fs -copyFromLocal LICENSE.txt /user/hduser/wordcount/input
hadoop fs -ls /user/hduser/wordcount/input
在这里插入图片描述

8.6本地运行pyspark程序

8.6.1进入pysaprk

pyspark --master local[4]
在这里插入图片描述

8.6.2查看当前运行模式

sc.master
在这里插入图片描述
Local[N]代表本地运行，使用N个线程（thread），也就是说可以同时执行N个程序。虽然是在本地运行，但是因为现在的CPU大多是多个核心，所以使用多个线程仍然可以加速执行。Local[*],可以指定使用的线程数，例如local[4]代表

最低0.47元/天解锁文章

停止的闹钟

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。