Databricks 第3篇：pyspark.sql 通过JDBC连接数据库

悦光阴

于 2021-01-08 13:45:00 发布

阅读量1.1k

点赞数

文章标签：数据库 mysql sql java oracle

本文链接：https://blog.csdn.net/upluck/article/details/116973815

版权

本文详细介绍了如何在Databricks中使用pyspark.sql通过JDBC连接并操作Azure SQL数据库。内容包括创建JDBC URL、将查询推送到数据库引擎以及执行更新操作。使用DataFrame API进行读取和更新，并提供了相关参数的说明和示例。

摘要由CSDN通过智能技术生成

Databricks Runtime 包含Azure SQL 数据库的 JDBC 驱动程序，本文介绍如何使用数据帧 API 连接到使用 JDBC 的 SQL 数据库，通过 JDBC 接口进行的读取操作和更新操作。

在Databricks的Notebook中，spark是Databricks内置的一个SparkSession，可以通过该SparkSession来创建DataFrame、引用DataFrameReader和DataFrameWriter等。

一，创建JDBC URL

本文适用Python语言和JDBC驱动程序来连接Azure SQL Database，

jdbcHostname = "Azure SQL Database"
jdbcDatabase = "db_name"
jdbcPort = 1433
jdbcUsername="user_name"
jdbcPassword="user_password"

jdbcUrl = "jdbc:sqlserver://{0}:{1};database={2}".format(jdbcHostname, jdbcPort, jdbcDatabase)
connectionProperties = {
  "user" : jdbcUsername,
  "password" : jdbcPassword,
  "d