我的大数据之路 --pyspark连接mysql数据库

最新推荐文章于 2024-07-29 17:54:27 发布

小牛头#

最新推荐文章于 2024-07-29 17:54:27 发布

阅读量1.5k

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41562377/article/details/89439056

版权

大数据专栏收录该内容

38 篇文章 1 订阅

订阅专栏

pyspark连接mysql数据库

说明一点，spark2.0（包括spark2.0）以下的版本不支持python3.6以上的版本（包括python3.6）。（亲测到怀疑人生）

三台机都要。

由于CentOS本身自带python2.7.5，而2.-.-现在已经逐步退出。所以建议大家使用python3。
下载python3以及安装点这里呀
下载mysql:jdbc驱动包提取码 q4nn ，我这里使用的是mysql-connector-java-5.1.10-bin的驱动包，亲测可用。
将下载好的驱动包放在spark的jars目录下

cp /user/mysql-connector-java-5.1.10-bin.jar /user/spark/jars/

记得驱动包的组是hadoop
接下来就把spark-env.sh改一下

#pyspark

export  PYSPARK_PYTHON=/usr/bin/python
export  EXTRA_SPARK_CLASSPATH=/user/spark/jars

再修改pyspark文件，前提是python的软连接对应的是你python3的版本
vi /user/spark/bin/pyspark

在这里插入图片描述

开启集群，pyspark开启需要启动hadoop集群。
```
bin/pyspark
```
因为我使用的是spark2.0.0的，由于不支持python3.6以上，所以我换成了python3.5。

10.连接mysql，前提创建好数据库test，表people。
df1=sqlContext.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/test?useSSL=false").option("driver", "com.mysql.jdbc.Driver").option("dbtable", "people").option("user", "root").option("password", "root").load()
在这里插入图片描述

11.成功，接下来就是自己操作了。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。