python空间计算学习总结PySpark—（3）验证 Windows10 中 PySpark大数据程序开发（在 PyCharm 和 jupyter notebook）

本文链接：https://blog.csdn.net/ocean111best/article/details/104286899

上一篇：PySpark空间计算学习总结—（2）python大数据环境安装

1、在 PyCharm 里面运行大数据程序

（1）PyCharm 配置默认 Anaconda 环境

打开 PyCharm，在 File->Default Setting->Project Interpreter 里面

点击“Add Local”

选择第三个System Interpreter，然后将路径选为anaconda安装路径下的python.exe，确定后成功配置anaconda环境。

（2）运行程序

注意需要先安装 findspark：

// 直接 cmd 里面运行:
pip install findspark

然后在代码前面需要加上前面几行（之前没加总报错）：

import findspark
findspark.init()
import pyspark   // 这一行有时候可以不需要，但是最好写上

运行如下完整程序：

import findspark
findspark.init()
from pyspark import SparkConf, SparkContext
# 创建SparkConf和SparkContext
conf = SparkConf().setMaster("local").setAppName("lichao-wordcount")
sc = SparkContext(conf=conf)
# 输入的数据
data = ["hello", "world", "hello", "word", "count", "count", "hello"]
# 将Collection的data转化为spark中的rdd并进行操作
rdd = sc.parallelize(data)
resultRdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
# rdd转为collecton并打印
resultColl = resultRdd.collect()
for line in resultColl:
    print(line)

运行结果如下：

D:\App\Anaconda3.5\python.exe E:/Python/Practices/20200212/pySparkTest02.py
2020-02-12 21:21:52 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
('hello', 3)
('world', 1)
('word', 1)
('count', 2)

Process finished with exit code 0

运行成功表明在 Windows10 里面安装成功了大数据处理环境。