spark针对sqlserver_第68课：Spark SQL通过JDBC操作Sql Server

最新推荐文章于 2022-07-03 03:02:03 发布

带带带麻烦

最新推荐文章于 2022-07-03 03:02:03 发布

阅读量783

点赞数

文章标签： spark针对sqlserver

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36299790/article/details/112054569

版权

本期内容：

1 Spark SQL操作关系数据库的意义

2 Spark SQL操作关系数据库实战

一：使用Spark通过JDBC操作数据库

1， Spark SQL可以通过JDBC从传统的关系型数据库中读写数据，读取数据后直接生成的是DataFrame。然后再加上借助于Spark内核的丰富的API来进行各种操作。从计算数据规模的角度去讲，集群并行访问数据库数据；

2，通过format(“jdbc“)的方式说明SparkSQL操作的数据来源是通过JDBC获得，JDBC后端一般都是数据库，例如MySQL、Oracle等；

3，通过DataFrameReader的optition方法把要访问数据库的信息传递进去：

url：代表数据库的jdbc链接地址；

dbtable：具体要链接那个数据库；

driver：Driver部分是Spark SQL访问数据库的具体的驱动的完整包名和类名

4，关于JDBC的驱动的Jar，可以放在Spark的library目录，也可以在使用Spark Submit的使用指定具体的Jar(编码和打包的时候都不需要这个JDBC的Jar)；

5，在实际的企业级开发环境中，如果数据中数据规模热别大，例如10亿条数据，此时采用传统的DB去处理的话一般需要对10亿条数据分成很多批次处理，例如分成100批(受限于单台Server的处理能力)，且实际的处理过程可能会非常复杂，通过传统的Java EE等技术可能很难或者不方便实现处理算法，此时采用Spark SQL活得数据库中的数据并进行分布式处理就可以

最低0.47元/天解锁文章

带带带麻烦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark针对sqlserver_第68课：Spark SQL通过JDBC操作Sql Server

本期内容：1 Spark SQL操作关系数据库的意义2 Spark SQL操作关系数据库实战一：使用Spark通过JDBC操作数据库1，Spark SQL可以通过JDBC从传统的关系型数据库中读写数据，读取数据后直接生成的是DataFrame。然后再加上借助于Spark内核的丰富的API来进行各种操作。从计算数据规模的角度去讲，集群并行访问数据库数据；2，通过format(“jdbc“)的方式...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。