Spark提供的pyspark可以像scala shell一样提供交互式的开发,本文介绍在windows下单机环境下的pyspark配置,当然数据量小,任务简单,条件有限的可以在单机上这样做示例,数据量大任务重的还是配置linux集群环境。
1.官网下载好的Spark包解压至某目录,如E:\spark-2.1.0-bin-hadoop2.6,
2.添加环境变量SPARK_HOME如下:
3.安装findspark包,命令如下pip install findspark
4.在写交互脚本时,首先导入findspark包,然后执行findspark.init(),这两行写在前边
5.测试例子,简单测试,读入数据,输出第一条数据,中间异常由于是单机环境,还没有配置hadoop集群环境,可以忽略:
6.后续可以使用Mllib,参考官网的例子进行开发学习。
官网Mllib:http://spark.apache.org/docs/latest/ml-guide.html
官网Quick Start:http://spark.apache.org/docs/latest/quick-start.html
Spark Programming Guide:http://spark.apache.org/docs/latest/programming-guide.html