关于在windows平台下使用ipython运行pyspark的问题

原创 2015年11月20日 15:46:37

最近读了一本书<machine learning with spark> ,在第三章中讲到用增强的交互式ipython运行pyspark,也就是用如下命令:

                                                    > IPYTHON=1 IPYTHON_OPTS="--pylab" ./bin/pyspark

本人在windows平台下的shell中跑spark,上述命令运行失败。查阅了多个文献,大都是讲在linux平台下的ipython配置来运行 pyspark。在 spark的conf目录下配置也不起作用,这下犯难了!!!


假设您已经安装了 python及相关的库,下面是解决办法:

在spark配置文件中,%SPARK_HOME%/bin目录下有pypspark, pyspark.cmd, pyspark2.cmd三个文件,第一个是.sh文件(linux),第二、三个windows的脚本文件,其中pyspark2.cmd是主要执行文件,其内容如下:

-------------------------------------------------------------------------------------------------------------------------------------------------------------

set SPARK_HOME=%~dp0..

call %SPARK_HOME%\bin\load-spark-env.cmd
set _SPARK_CMD_USAGE=Usage: bin\pyspark.cmd [options]

rem Figure out which Python to use.
if "x%PYSPARK_DRIVER_PYTHON%"=="x" (
set PYSPARK_DRIVER_PYTHON=python
if not [%PYSPARK_PYTHON%] == [] set PYSPARK_DRIVER_PYTHON=%PYSPARK_PYTHON%
)

set PYTHONPATH=%SPARK_HOME%\python;%PYTHONPATH%
set PYTHONPATH=%SPARK_HOME%\python\lib\py4j-0.8.2.1-src.zip;%PYTHONPATH%

set OLD_PYTHONSTARTUP=%PYTHONSTARTUP%
set PYTHONSTARTUP=%SPARK_HOME%\python\pyspark\shell.py

call %SPARK_HOME%\bin\spark-submit2.cmd pyspark-shell-main --name "PySparkShell" %*

-------------------------------------------------------------------------------------------------------------------------------------------------------------------

PYSPARK_DRIVER_PYTHON参数是指用什么来运行pyspark,只需要将红色部分改为

                            PYSPARK_DRIVER_PYTHON=ipython

保存后,在运行pyspark,就可以直接用ipython运行pyspark了。


版权声明:本文为博主原创文章,未经博主允许不得转载。

启动spark的pyspark命令窗口时报错-pyspark.sql.utils.IllegalArgumentException: u"Error while instantiating 'org.

启动spark的pyspark命令窗口时报错 pyspark.sql.utils.IllegalArgumentException: u"Error while instantiating 'org....
  • helloxiaozhe
  • helloxiaozhe
  • 2017年09月02日 18:26
  • 2200

Spark 2.2.0 启动时报Error while instantiating / java.net.ConnectException

我的机器: 已经安装好Hadoop Java Scala HiveMaster:192.168.244.129 Slave1.hadoop:192.168.244.128 Slave2.hadoo...
  • zhengshidao
  • zhengshidao
  • 2017年07月25日 21:21
  • 4939

pyspark报错: invalid stream header

当我对rdd进行map操作的时候,就是添加一个字段,表示其中的两个字段是否相等,然后报这个错误。 Google后也没找到确切的解决方案,因为是用python编程,对java不熟悉,估计是java对...
  • u011011025
  • u011011025
  • 2016年11月08日 16:46
  • 600

安装完pyspark报错

[root@hadoop bin]# beeline Traceback (most recent call last): File "/usr/bin/find_spark_home.py", ...
  • lzufeng
  • lzufeng
  • 2017年07月25日 19:44
  • 457

使用idea编辑sparkSql的程序运行出现java.lang.IllegalArgumentException: java.net.URISyntaxException

这个是具体错误:Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: ...
  • w3045872817
  • w3045872817
  • 2017年10月25日 16:14
  • 151

spark pyspark无法运行

spark 版本 spark-2.2.0-bin-hadoop2.7 java:1.8 在运行 ./bin/pyspark 报错 Traceback (most recent call last...
  • Locky_LLL
  • Locky_LLL
  • 2017年12月02日 22:20
  • 299

java.net.URISyntaxException: Relative path in absolute URI

 I was able to do some digging around in the latest Spark documentation, and I ...
  • huobanjishijian
  • huobanjishijian
  • 2016年09月19日 10:37
  • 500

hive报错 Another instance of Derby may have already booted the database

刚装好hive后,启动之后showtables;等正常,退出之后再进入,就发现会报错 Caused by: ERROR XSDB6: Another instance ofDerbymay have...
  • unflynaomi
  • unflynaomi
  • 2014年08月05日 16:53
  • 5075

spark2.2(hadoop2.7)在win10、python3.5安装心得

一、之前放过的错误:1、用的python3.6,还直接pip install pyspark.就想大功告成,naive! 2、下载'spark-2.2.0-bin-hadoop2.7'跟着网上教程乱改...
  • sinat_20174131
  • sinat_20174131
  • 2017年12月28日 16:41
  • 201
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:关于在windows平台下使用ipython运行pyspark的问题
举报原因:
原因补充:

(最多只允许输入30个字)