直接将mysql的驱动jar包放到spark安装目录中的jars目录
有些博文说是,此方法无效,但本人没有碰到,后期出现问题再修正
代码 示例
#配置本地spark的环境,必须放在最前面
import findspark
findspark.init()
print(findspark.find())
from pyspark.sql import SparkSession
#新建sparksession
sparksession = SparkSession.builder.master("local[*]").appName("hive_test_1").getOrCreate()
sc = sparksession.sparkContext
#读取mysql
jdbcDF = sparksession.read.format("jdbc").options(url="jdbc:mysql://127.0.0.1:3306/taobao",driver="com.mysql.jdbc.Driver",dbtable="(SELECT * FROM cms_attribute) tmp",user="root",password="123456").load()
print(jdbcDF.printSchema())
print(jdbcDF.show())
print(jdbcDF.head(3))
print(jdbcDF.take(4))
print(jdbcDF.columns)
jdbcDF.select(jdbcDF.f_name).show()
jdbcDF.select(jdbcDF["f_name"]).show()