8.5创建测试用的文本文件
8.5.1复制LICENSE.txt
cp /usr/local/hadoop/LICENSE.txt ~/wordcount/input
ll ~/wordcount/input
8.5.2启动所有虚拟服务器
8.5.3进入master虚拟机,启动Hadoop Multi-Node Cluster
start-all.sh
8.5.4上传测试文件HDFS目录
hadoop fs -mkdir -p /user/hduser/wordcount/input
cd ~/wordcount/input
hadoop fs -copyFromLocal LICENSE.txt /user/hduser/wordcount/input
hadoop fs -ls /user/hduser/wordcount/input
8.6本地运行pyspark程序
8.6.1进入pysaprk
pyspark --master local[4]
8.6.2查看当前运行模式
sc.master
Local[N]代表本地运行,使用N个线程(thread),也就是说可以同时执行N个程序。虽然是在本地运行,但是因为现在的CPU大多是多个核心,所以使用多个线程仍然可以加速执行。Local[*],可以指定使用的线程数,例如local[4]代表