Windows下Spark python 单机开发环境

Spark提供的pyspark可以像scala shell一样提供交互式的开发,本文介绍在windows下单机环境下的pyspark配置,当然数据量小,任务简单,条件有限的可以在单机上这样做示例,数据量大任务重的还是配置linux集群环境。


1.官网下载好的Spark包解压至某目录,如E:\spark-2.1.0-bin-hadoop2.6,

这里写图片描述

2.添加环境变量SPARK_HOME如下:

这里写图片描述

3.安装findspark包,命令如下pip install findspark

4.在写交互脚本时,首先导入findspark包,然后执行findspark.init(),这两行写在前边

这里写图片描述

5.测试例子,简单测试,读入数据,输出第一条数据,中间异常由于是单机环境,还没有配置hadoop集群环境,可以忽略:

这里写图片描述

6.后续可以使用Mllib,参考官网的例子进行开发学习。

官网Mllib:http://spark.apache.org/docs/latest/ml-guide.html
官网Quick Start:http://spark.apache.org/docs/latest/quick-start.html
Spark Programming Guide:http://spark.apache.org/docs/latest/programming-guide.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值