pyspark对Mysql数据库进行读写

最新推荐文章于 2024-07-29 17:54:27 发布

置顶

FTDdata

最新推荐文章于 2024-07-29 17:54:27 发布

阅读量1.4w

点赞数 2

分类专栏： Python 文章标签： spark mysql python

本文链接：https://blog.csdn.net/jhr112/article/details/105798381

版权

本文介绍了如何在pyspark中读写Mysql数据库。首先，文章列出了软件版本和环境配置，包括Java、Spark、Python和PyCharm的版本，以及连接Mysql所需的jar包。接着，详细展示了读取和写入Mysql的Python脚本，强调了参数设置和返回数据类型。最后，讨论了可能出现的错误及解决方案，如权限拒绝和驱动不适用的问题。

摘要由CSDN通过智能技术生成

pyspark是Spark对Python的api接口，可以在Python环境中通过调用pyspark模块来操作spark，完成大数据框架下的数据分析与挖掘。其中，数据的读写是基础操作，pyspark的子模块pyspark.sql 可以完成大部分类型的数据读写。文本介绍在pyspark中读写Mysql数据库。

1 软件版本

在Python中使用Spark，需要安装配置Spark，这里跳过配置的过程，给出运行环境和相关程序版本信息。

win10 64bit
java 13.0.1
spark 3.0
python 3.8
pyspark 3.0
pycharm 2019.3.4

2 环境配置

pyspark连接Mysql是通过java实现的，所以需要下载连接Mysql的jar包。

下载地址

在这里插入图片描述
选择下载Connector/J，然后选择操作系统为Platform Independent，下载压缩包到本地。

然后解压文件，将其中的jar包mysql-connector-java-8.0.19.jar放入spark的安装目录下，例如D:\spark\spark-3.0.0-preview2-bin-hadoop2.7\jars。
在这里插入图片描述
环境配置完成！

3 读取Mysql

脚本如下：

from pyspark.sql import SQLContext, SparkSession

if __name__ == '__main__':
    # spark 初始化
    spark = SparkSession. \
        Builder(). \
        appName('sql'). \
        master('local'). \
        getOrCreate()
    # mysql 配置(需要修改)
    prop =