关于sparkSQL JDBC接口读取注意点

最新推荐文章于 2023-07-27 17:45:00 发布

没有合适的昵称

最新推荐文章于 2023-07-27 17:45:00 发布

阅读量2.2k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/weixin_42411818/article/details/98848430

版权

spark 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

jdbc的简单操作

		val spark = SparkSession
      .builder()
      .appName("JdbcDatasourceTest")
      .master("local")
      .getOrCreate()	
      //url:
    // jdbc:mysql://master:3306/test
    // jdbc:oracle://master:3306/test
    // jdbc:db2://master:3306/test
    // jdbc:derby://master:3306/test
    // jdbc:sqlserver://master:3306/test
    // jdbc:postgresql://master:3306/test
    
    val mysqlUrl = "jdbc:mysql://master:3306/test"
    
    // 读取csv文件数据
    val optsMap = Map("header" -> "true", "inferSchema" -> "true")
    val df = spark.read.options(optsMap).csv(s"${BASE_PATH}/jdbc_demo_data.csv")
    
    val properties = new Properties()
    properties.put("user", "root")
    properties.put("password", "root")
    //向Mysql数据库写数据
    df.write.mode(SaveMode.Overwrite).jdbc(mysqlUrl, "person", properties)
    //从mysql数据库读取数据
    val jdbcDFWithNoneOption = spark.read.jdbc(mysqlUrl, "person", properties)

JDBC操作数据库

1.建表
第一次写的时候，需要创建一张表，建表语句类似如下：
CREATE TABLE t (name string) ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1
ENGINE=InnoDB使用innodb引擎 DEFAULT CHARSET=utf8 数据库默认编码为utf-8 AUTO_INCREMENT=1 自增键的起始序号为1
属性配置ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1可以通过参数createTableOptions传给spark

	var writeOpts =
      Map[String, String]("createTableOptions" -> "ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1")
   	 df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)

2.设置表的schema
一般表的schema是和DataFrame是一致的，字段的类型是从spark sql的DataType翻译到各个数据库对应的数据类型
如果字段在数据库中的类型不是你想要的，你可以通过参数createTableColumnTypes来设置createTableColumnTypes=age long,name string

	writeOpts = Map[String, String]("createTableColumnTypes" -> "id long,age long")
    df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)

3.事务隔离级别的设置，通过参数isolationLevel设置
NONE 不支持事物
READ_UNCOMMITTED 会出现脏读、不可重复读以及幻读
READ_COMMITTED 不会出现脏读，但是还是会出现不可重复读以及幻读
REPEATABLE_READ 不会出现脏读以及不可重复读，但是还会出现幻读
SERIALIZABLE 脏读、不可重复读以及幻读都不会出现了

	writeOpts = Map[String, String]("isolationLevel" -> "READ_UNCOMMITTED")
    df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)

4.写数据
写数据的过程中可以采用批量写数据，每一批写的数据量的大小可以通过参数batchsize设置，默认是：1000,这个值根据具体的业务来定

	writeOpts = Map[String, String]("batchsize" -> "100")
    df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)

5.SaveMode
第二次写数据的时候，这个时候表已经存在了，所以需要区分SaveMode
当SaveMode=Overwrite 的时候，需要先清理表，然后再写数据。清理表的方法又分两种：
第一种是truncate即清空表，如果是这种的话，则先清空表，然后再写数据
第二种是drop掉表，如果是这种的话，则先drop表，然后建表，最后写数据
以上两种方式的选择，可以通过参数truncate(默认是false)控制。因为truncate清空数据可能会失败，所以可以使用drop table的方式
而且不是所有的数据库都支持truncate table,其中PostgresDialect就不支持
当SaveMode=Append 的时候,则直接写数据就行
当SaveMode=ErrorIfExists 的时候,则直接抛异常
当SaveMode=Ignore 的时候,则直接不做任何事情

	writeOpts = Map[String, String]("truncate" -> "false")
    df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)

6.分区
分区的目的:当读小表的时候,很快,但是当表很大的时候,你再去读数据,就会很慢,严重影响效率,分区的意思就是分几个区,一个区读一点,用以提高性能
按照某个分区字段进行分区读数据
partitionColumn 分区的字段，这个字段必须是integral类型的,比如ID
lowerBound 用于决定分区步数的partitionColumn的最小值
upperBound 用于决定分区步数的partitionColumn的最大值
numPartitions 分区数，和lowerBound以及upperBound一起来为每一个分区生成sql的where字句
如果upperBound - lowerBound >= numPartitions,那么我们就取numPartitions个分区，否则我们取upperBound - lowerBound个分区数
假设:8 - 3 = 5 > 3 所以我们取3个分区
where id < 3 + 1 这个1是通过 8／3 - 3／3 = 1得来的分区1
where id >= 3 + 1 and id < 3 + 1 + 1 分区2
where id >= 3 + 1 + 1 分区3

	//配置的方式
	 val readOpts = Map[String, String]("numPartitions" -> "3", "partitionColumn" -> "id",
      "lowerBound" -> "3", "upperBound" -> "8", "fetchsize" -> "100")
    val jdbcDF = spark.read.options(readOpts).jdbc(mysqlUrl, "person", properties)
    jdbcDF.rdd.partitions.size   // 这个是查看分区数
    jdbcDF.rdd.glom().collect()  // 这个是查看每个分区的数据有哪些
    jdbcDF.show()  // 查看所有数据
    // api方式
    spark.read.jdbc(mysqlUrl, "person", "id", 3, 8, 3, properties).show()
    // 参数predicates: Array[String],用于决定每一个分区对应的where子句，分区数就是数组predicates的大小
    val conditionDF = spark.read.jdbc(mysqlUrl,
      "person", Array("id > 2 and id < 5", "id >= 5 and id < 8"), properties)

注:

每次读取的时候，可以采用batch的方式读取数据，batch的数量可以由参数fetchsize来设置。默认为：0，表示jdbc的driver来估计这个batch的大小
不管是读还是写，都有分区数的概念，读的时候是通过用户设置numPartitions参数设置的，而写的分区数是DataFrame的分区数
需要注意一点的是不管是读还是写，每一个分区都会打开一个jdbc的连接，所以分区不宜太多，要不然的话会搞垮数据库
写的时候，可以通过DataFrame的coalease接口来减少分区数

没有合适的昵称

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于sparkSQL JDBC接口读取注意点

jdbc的简单操作 val spark = SparkSession .builder() .appName("JdbcDatasourceTest") .master("local") .getOrCreate() //url: // jdbc:mysql://master:3306/test // jdbc:or...
复制链接

扫一扫

专栏目录