近期使用pyspark遇到的问题以及解决办法

最新推荐文章于 2022-10-11 17:52:27 发布

我要出家当道士

最新推荐文章于 2022-10-11 17:52:27 发布

阅读量1.7k

点赞数

分类专栏：开发环境搭建与使用文章标签： pyspark spark python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37437983/article/details/105643385

版权

开发环境搭建与使用专栏收录该内容

49 篇文章 3 订阅

订阅专栏

首先是环境安装，可参考之前的博客，里面有hadoop和spark环境配置的连接。最好先安装hadoop。使用spark的话hadoop最好还是安装下。https://blog.csdn.net/qq_37437983/article/details/105492509

一：在spark中运行python代码的问题，真的这个对于经常使用spark的人来说可能是非常简单的问题，但对于我这个急于求成的人来说，真的手足无措。看网上的方法都是使用spark-submit来提交，这样总觉得很烦，如果可以之间在编译器中点击运行按钮多好。然后具体找了找，可以在代码头部添加如下代码，把环境加载进去就行了。

import os
import sys

os.environ['SPARK_HOME'] = r'/opt/spark-2.4.1/'
sys.path.append("/opt/spark-2.4.1/python/lib/py4j-0.10.7-src.zip")

二：首先就是第三方依赖的问题，这个问题我到现在还是没有解决，但我的问题比较特殊。下面提供的是网上的通用解决办法。

1，将需要使用依赖打包成zip格式(推荐virtualenv工具，具体用法百度)，使用spark-submit提交代码是使用--py-files提交，例如下面命令，提交了pye.zip。这个方法只适用于源码中没有.so文件的依赖，对于类似numpy这样的依赖因为其存在.so需要动态编译，无法满足，所以肯定会报错numpy中缺少某个文件的错误。

spark-submit --master spark://ITS-Hadoop10:7077 --py-files pye.zip cal_similar_spark_mch.py

方法不唯一，也可以在代码中添加如下代码：

sc = SparkContext(appName="calculate similar matrix" , master="spark://192.168.0.106:7077")
sc.addPyFile('pye.zip')

2，直接使用anaconda(推荐),真的好使，谁用谁知道。

三，类似java.lang.UnsupportedClassVersionError: org/apache/spark/network/util/ByteUnit : Unsupported major.minor version 52.0这样的问题。解决办法就是重装jdk，这个原因就是jdk版本与spark版本不对应造成的。

四，pyspark连接mysql数据库缺少驱动,java.sql.SQLException: No suitable driver.解决办法就是下载驱动：点我呀。然后放到%JAVA_HOME%下的/jre/lib/ext/目录下。这个是对于oracle JDK而言的。我一开始为了省事安装的openjdk，所以方法需要改变下，编辑 spark安装目录中的$SPARK_HOME/conf/spark-env.sh文件，加入如下命令。后面的路径就是你存在sql驱动的位置，需要修改下。

export SPARK_CLASSPATH=/opt/spark-2.4.1/jars/mysql-connector-java-8.0.11.jar

五，还一个就是在代码里连接spark的问题。具体错误我忘了，大概就是master连不上。如下代码：

sc = SparkContext(appName="calculate similar matrix" , master="spark://192.168.0.106:7077")

错误我在网上找了下，大概是这样的：

Failed to connect to master 10.xx.xx.xx:7077

具体解决办法参考：点我呀

我要出家当道士

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

我要出家当道士 CSDN认证博客专家 CSDN认证企业博客

码龄8年

运维领域新星创作者

345: 原创

5319: 周排名

3796: 总排名

74万+: 访问

: 等级

7991: 积分

1万+: 粉丝

917: 获赞

222: 评论

2342: 收藏

私信

关注

热门文章

分类专栏

最新评论

VPP使用介绍（route、tun、memif、abf）
君改个名真麻烦: 请问set acl-plugin acl是不是没办法设置ipv4还是ipv6 vpp# show acl-plugin acl index 7 acl-index 7 count 2 tag {cli} 0: ipv4 permit src 0.0.0.0/0 dst 0.0.0.0/0 proto 0 sport 0-65535 dport 0-65535
排序组成最大数(纯C)
qq_54724670: 逻辑有点问题，对于不等长且前几位相同的情况下需要不同的判断，比如21,211和21,210.显然组成21211和21210大，而21,212则是21221大。正确做法应该是用低长度的末尾补全尾数至等长，比如21补位211，然后补位后的原先低长度数字大于等于原先高长度数字，则低长度在前，否则高长度在前。
简单的ffmpeg推流(C++实现)
2301_79972898: 你好，在ubuntu上跑需要改哪些东西
npm下载速度太慢
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)增加除了各种控件外，文章正文的字数；(3)使用更多的站内链接。
ubuntu使用droidcam连接手机摄像头
一码天黑: 可行，apk可以在这里下载：https://softmall.net/apps/1272#google_vignette

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我要出家当道士 打赏是不可能，这辈子都不可能

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。