上一篇:PySpark空间计算学习总结—(2)python大数据环境安装
1、在 PyCharm 里面运行大数据程序
(1)PyCharm 配置默认 Anaconda 环境
打开 PyCharm,在 File->Default Setting->Project Interpreter 里面
点击“Add Local”
选择第三个System Interpreter,然后将路径选为anaconda安装路径下的python.exe,确定后成功配置anaconda环境。
(2)运行程序
注意需要先安装 findspark:
// 直接 cmd 里面运行:
pip install findspark
然后在代码前面需要加上前面几行(之前没加总报错):
import findspark
findspark.init()
import pyspark // 这一行有时候可以不需要,但是最好写上
运行如下完整程序:
import findspark
findspark.init()
from pyspark import SparkConf, SparkContext
# 创建SparkConf和SparkContext
conf = SparkConf().setMaster("local").setAppName("lichao-wordcount")
sc = SparkContext(conf=conf)
# 输入的数据
data = ["hello", "world", "hello", "word", "count", "count", "hello"]
# 将Collection的data转化为spark中的rdd并进行操作
rdd = sc.parallelize(data)
resultRdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
# rdd转为collecton并打印
resultColl = resultRdd.collect()
for line in resultColl:
print(line)
运行结果如下:
D:\App\Anaconda3.5\python.exe E:/Python/Practices/20200212/pySparkTest02.py
2020-02-12 21:21:52 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
('hello', 3)
('world', 1)
('word', 1)
('count', 2)
Process finished with exit code 0
运行成功表明在 Windows10 里面安装成功了大数据处理环境。
2、在 Jupyter Notebook 里面运行大数据程序
(1)当初安装 python 时,应该自带了 jupyter notebook 这个应用。
在cmd中输入jupyter notebook,然后自动在浏览器中弹出http://localhost:8888/tree;
注意可以先在cmd中进入存放练习文件的文件夹。然后New—Python3就可以新建python3程序。
(2)运行程序
可以输入上面中 PyCharm 里面的程序或者输入如下程序,点击上面的 “Run” 出现结果。