PySpark完美安装

一、hadoop版本号确认

1. hadoop ==> 2.7.2

[root@dm46 TDH-Client]# hadoop version

Hadoop 2.7.2-transwarp-6.2.0

Subversion http://xxxx:10080/hadoop/hadoop-2.7.2-transwarp.git -r f31230971c2a36e77e4886e0f621366826cec3a3

Compiled by jenkins on 2019-07-27T11:33Z

Compiled with protoc 2.5.0

二、下载spark

注意:选择 Pre-built for Apache Hadoop 2.7

https://dlcdn.apache.org/spark/spark-3.2.3/spark-3.2.3-bin-hadoop2.7.tgz

三、准备pyspark环境

1. 创建虚拟环境

conda create -n pyspark_env python=3.8

conda activate pyspark_env

2. 安装pyspark

注意:确保spark版本与pyspark版本一致

pip install pyspark==3.2.3 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

3.测试

cd /home/xxx/kdh/spark/bin

./spark-submit --master local[*] /home/xxx/kdh/spark/examples/src/main/python/pi.py 30

四、常见报错

1. RuntimeError: Python in worker has different version 3.8 than that in driver 3.6

原因:local模式下,此时使用的是当前环境的python。如果代码里指定了pyspark_env,当前环境也应该是pyspark_env。

conda activate pyspark_env

cd /home/xxx/kdh/spark/bin

./spark-submit --master local[*] /home/xxx/workspace/pyspark_learn/02_pyspark_core/main/02_Wordcount_hdfs.py

五、其它

1. arrow安装

pip install pyspark[sql] -i https://pypi.tuna.tsinghua.edu.cn/simple

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kangwq2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值