Spark实现读取关系型数据库数据并保存在HDFS(python)

最新推荐文章于 2023-06-11 11:20:05 发布

大数据海中游泳的鱼

最新推荐文章于 2023-06-11 11:20:05 发布

阅读量958

点赞数

分类专栏：大数据 Spark 文章标签： spark 数据库 hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Wxh_bai/article/details/129961405

版权

大数据同时被 2 个专栏收录

61 篇文章 3 订阅

订阅专栏

26 篇文章 0 订阅

订阅专栏

加粗样式1. 导入必要的库

from pyspark.sql import SparkSession

创建SparkSession

spark = SparkSession.builder.appName("Read RDBMS Data and Save to HDFS").getOrCreate()

读取关系型数据库数据

# 配置数据库连接信息
url = "jdbc:mysql://localhost:3306/mydb"
table_name = "my_table"
properties = {"user": "my_user", "password": w", "driver": "com.mysql.jdbc.Driver"}
# 读取数据
df = spark.read.jdbc(url=url, table=table_name, properties=properties)

保存到HDFS中

# 配置HDFS保存路径
hdfs_path = "hdfs://localhost:9000/my/path/"
# 保存数据
df.write.format("parquet").mode("overwrite").save(hdfs_path)

我们使用了Spark读取关系型数据库数据，并将数据保存到HDFS中，具体实现过程如下：

首先，创建SparkSession。
接着，配置数据库连接信息，包括数据库URL、表名以及用户名和密码等。
然后，使用Spark的read.jdbc()方法读取指定的表数据，并将其存储在DataFrame中。
最后，配置HDFS保存路径，并使用DataFrame的write()方法将数据保存到HDFS中，这里我们使用了parquet格式作为保存的数据格式。

大数据海中游泳的鱼

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark实现读取关系型数据库数据并保存在HDFS(python)

【代码】Spark实现读取关系型数据库数据并保存在HDFS(python)
复制链接

扫一扫

专栏目录

大数据海中游泳的鱼 CSDN认证博客专家 CSDN认证企业博客

码龄7年

70: 原创

42万+: 周排名

135万+: 总排名

5万+: 访问

: 等级

712: 积分

8: 粉丝

9: 获赞

6: 评论

104: 收藏

私信

关注

热门文章

分类专栏

DW 3篇
大数据 61篇
基础 38篇
监控 14篇
Hive 6篇
python 5篇
Kettle 1篇
etl 1篇
sqoop 1篇
kafka 1篇
核心编程 1篇
Flink 1篇
Spark 26篇
Presto 1篇
kubernetes 1篇
Hbase 1篇
JVM 2篇
Flume 1篇
AI 1篇
优化 4篇

最新评论

Kettle是什么(ETL工具)
我从来没有，也不怕失去: 已鉴定：废话连篇
Hadoop权限管理使用什么组件(HA + Kerberos)
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616395287?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
SparkSQL中应该学习哪些知识
CSDN-Ada助手: 恭喜您写出了第一篇博客！很高兴看到您对SparkSQL有浓厚的兴趣。关于下一步的创作建议，我认为您可以更深入地探究SparkSQL的应用场景和实践案例，并结合自己的经验分享一些实用的技巧和心得。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
SparkSQL中的内置函数和高级函数和用法举例（Python）
CSDN-Ada助手: 非常感谢您分享这篇关于SparkSQL内置函数和高级函数的博客。您的文章对于想要深入了解SparkSQL的读者来说是非常有价值的。同时，我认为您可以进一步分享一些与SparkSQL相关的技能，例如SparkSQL的优化技巧和调试经验，在以后的文章中加以探讨。期待您的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
SparkSQL中数据转换的方法
CSDN-Ada助手: 非常感谢用户的第三篇博客，题目看起来就十分吸引人。恭喜您一直持续创作，为大家提供了更多有价值的内容。接下来，我希望能看到更多实用的技术分享，比如SparkSQL的优化技巧、应用场景等等。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据海中游泳的鱼 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。