在Jupyter Notebook里运行PySpark

有两种方法

  1. 配置PySpark driver,当运行pyspark命令就直接自动打开一个Jupyter Notebook,此时shell端不会打开
  2. 正常启动Jupyter Notebook,然后用findSpark的package(我选了这种)

方法1:配置PySpark driver

~/.bashrc文件添加配置PySpark driver的环境变量

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
$ source ~/.bashrc

然后重启terminal

$pyspark

 方法2:用findSpark包

下载findSpark包 :pip3 install findSpark

在终端输入jupyter notebook即可

$jupyter notebook

Jupyter Notebook运行效果

附上代码,大家运行感受一下:

#方法2需要复制这三行
import findspark
findspark.init()
import pyspark

#方法1直接从这里开始复制
import random
sc = pyspark.SparkContext(appName="Pi")
num_samples = 100000000
def inside(p):     
  x, y = random.random(), random.random()
  return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()

 

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值