在windows上面安装并用jupyter运行pyspark

intro
首先,这里介绍的方法很基本,大牛可以绕过了。

由于个人的测试需要,打算在自己的pc上面安pyspark,来熟悉MLlib。
翻了一下bing和狗,方法不少,试了linux虚拟机安装,vmware 下cloudera的安装。走到后面都会发现,这些方法并不合适,或者对机器有要求,或者对安装者的背景有要求。

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

                        正文分隔行

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

这里推荐一个不需要太折腾,对机器也没什么要求的方法。原文地址:https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c
原网页好像被墙了,大家查看的时候注意一下

这里主要是把原文的方法列一下,加上我碰到的一些问题。

1,安装Anaconda 和 GOW(Gnu on windows)

前者的安装我就不写了。地址是:https://repo.continuum.io/archive/
我的机器上面装的miniconda。

GOW的地址:https://github.com/bmatzelle/gow/releases/download/v0.8.0/Gow-0.8.0.exe

GOW的作用是在cmd下面执行linux 命令。安装结束之后可以运行:

gow --list

如果安装正确,可以返回

Available executables: awk, basename, bash, bc, bison, bunzip2, bzip2, bzip2recover, cat, chgrp, chmod, chown, chroot, cksum, clear, cp, csplit, curl, cut, dc,dd, df, diff, diff3, dirname, dos2unix, du, egrep, env, expand, expr, factor, fgrep, flex, fmt, fold, gawk, gfind, gow, grep, gsar, gsort, gzip, head, hostid, hostname, id, indent, install, join, jwhois, less, lesskey, ln, ls, m4, make, md5sum, mkdir, mkfifo, mknod, mv, nano, ncftp, nl, od, pageant, paste, patch, pathchk, plink, pr, printenv, printf, pscp, psftp, putty, puttygen, pwd, rm, rmdir, scp, sdiff, sed, seq, sftp, sha1sum, shar, sleep, split, ssh, su, sum, sync, tac, tail, tar, tee, test, touch, tr, uname, unexpand, uniq, unix2dos, unlink, unrar, unshar, uudecode, uuencode, vim, wc, wget, whereis, which, whoami, xargs, yes, zip

2,安装spark

spark的地址:http://spark.apache.org/downloads.html

我选的是default的设置下的版本: spark-2.1.1-bin-hadoop2.7.tgz.
下载好后,记一下路径名称。

打开cmd prompt
mkdir C:\opt\spark
mv C:\Users\neal\Downloads\spark-2.1.1-bin-hadoop2.7.tgz C:\opt\spark\spark-2.1.1-bin-hadoop2.7.tgz
gzip -d spark-2.1.1-bin-hadoop2.7.tgz
tar xvf spark-2.1.1-bin-hadoop2.7.tar
以上是安装spark的过程,下面要安装winutils.exe
curl -k -L -o winutils.exe https://github.com/steveloughran/winutils/blOb/master/hadoop-2.6.0/bin/winutils.exe?raw=true

下面要确认java已经安装。

java官网地址:https://www.java.com/en/

3,设置路径

setx SPARK_HOME C:\opt\spark\spark-2.1.1-bin-hadoop2.7
setx HADOOP_HOME C:\opt\spark\spark-2.1.1-bin-hadoop2.7
setx PYSPARK_DRIVER_PYTHON ipython
setx PYSPARK_DRIVER_PYTHON_OPTS notebook
把“ ;C:\opt\spark\spark-2.1.0-bin-hadoop2.7\bin ”加到系统路径里面。如果没有系统权限,可以加入到用户路径下面。

到这一步,pyspark就已经装好了。

4,使用pyspark

pyspark --master local[2]

这个会打开ipython notebook。

sc = SparkContext.getOrCreate()

import numpy as np

TOTAL = 1000000
dots = sc.parallelize([2.0 * np.random.random(2) - 1.0 for i in range(TOTAL)]).cache()
print(dots.count())

如果得到的输出是’1000000‘,说明系统正常。如果出现error,可以回头看一下路径是否正确。

最后,我会继续用pyspark测试。如果有其他问题会在下面更新。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值