连接mysql数据库
from pyspark.sql import SparkSession
from pyspark.sql import Row
spark = SparkSession \
.builder \
.appName("Python Spark SQL data source example") \
.getOrCreate()
jdbcDF = spark.read \
.format("jdbc") \
.option("url", "jdbc:mysql://localhost:3306/on_case?serverTimezone=GMT&characterEncoding=utf-8") \
.option("driver","com.mysql.jdbc.Driver") \
.option("dbtable", "sheet_report_info") \ #表名
.option("user", "dev") \
.option("password", "12345678") \
.load()
jdbcDF.show()
spark.stop()
jdbc驱动安装
本人使用Win10操作系统,Anaconda进行环境安装。
jdbc jar包存放路径:{Anaconda3}/envs/{env} /Lib/site-packages/pyspark/jars
{Anaconda3}: 为anaconda3的安装路径
{env}: 为anaconda3下安装pyspark的环境。
本人的具体路径:d:/Anaconda3/envs/spark/Lib/site-packages/pyspark/jars
不需要重启Anaconda3。
jdbc时区
jdbc:mysql://localhost:3306/on_case?serverTimezone=GMT&characterEncoding=utf-8"
增加 serverTimezone=GMT&characterEncoding=utf-8 的配置。