Python Spark的介绍与安装(2) 学习笔记八

这篇博客详细介绍了如何在本地、Hadoop YARN和Spark Standalone Cluster环境下安装和运行Python Spark(pyspark)。通过创建测试文件、启动Hadoop集群、读取HDFS文件等步骤,展示了pyspark的基本操作,包括在不同模式下查看运行状态、读取文件等。
摘要由CSDN通过智能技术生成

8.5创建测试用的文本文件

8.5.1复制LICENSE.txt

cp /usr/local/hadoop/LICENSE.txt ~/wordcount/input
ll ~/wordcount/input

在这里插入图片描述

8.5.2启动所有虚拟服务器

在这里插入图片描述

8.5.3进入master虚拟机,启动Hadoop Multi-Node Cluster

start-all.sh

8.5.4上传测试文件HDFS目录

hadoop fs -mkdir -p /user/hduser/wordcount/input
cd ~/wordcount/input
hadoop fs -copyFromLocal LICENSE.txt /user/hduser/wordcount/input
hadoop fs -ls /user/hduser/wordcount/input

在这里插入图片描述

8.6本地运行pyspark程序

8.6.1进入pysaprk

pyspark --master local[4]
在这里插入图片描述

8.6.2查看当前运行模式

sc.master
在这里插入图片描述
Local[N]代表本地运行,使用N个线程(thread),也就是说可以同时执行N个程序。虽然是在本地运行,但是因为现在的CPU大多是多个核心,所以使用多个线程仍然可以加速执行。Local[*],可以指定使用的线程数,例如local[4]代表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值