【Spark】SparkJdbc并发读取的partitionColumn规则
参考: spark 官方文档
使用spark的jdbc的方式读取数据的操作:
方式1:
spark.read.option(...).jdbc(url,table,properties)
方式2:
spark.fomat('jdbc').option(...).load()
可以注意到,在spark
通过jdbc
读取数据时候是有一个option
的选项的。
本次主要讨论spark jdbc
的多连接读取参数:
- partitionColumn
- lowerBound
- upperBound
- numPartitions
解释一下几个参数:
partitionColumn
这个参数是制定要用来分区查询的列,一般为可排序类型,比如: numeric
,date
, or timestamp
一般来说是可排序类型的列,有点像sqoop的分区抽取操作的设置。
lowerBound
,upperBound
共同用来决定分区的跨度。
numPartitions
设置