如何创建DataFrame
一、从RBDMS(关系型数据库)创建DataFrame
1、spark安装目录没有提供与数据库连接相关的Jar包,因此,对于想访问的数据库,需要把相关的Jar包拷贝到SPARK_HOME的Jars文件夹,在此贴上我的配置
spark:3.1.2
oracle:Personal Oracle Database 11g Release 11.2.0.1.0 - 64bit Production
jar:ojdbc6.jar
2、使用spark的read API读取数据库,通过参数指定数据库驱动、数据库地址、用户名、密码等关键信息
eg:以Oracle数据库为例
spark.read.format(“jdbc”)
.option(“driver”, “oracle.jdbc.driver.OracleDriver”)
.option(“url”, “jdbc:oracle:thin:@localhost:1521:orcl”)
.option(“user”, “用户名”)
.option(“password”,“密码”)
.option(“numPartitions”, 20)
.option(“dbtable”, "数据表名 ")
.load()
import o