【Spark】Spark 并行查询 Greenplum

最新推荐文章于 2024-08-06 10:22:48 发布

勤言不勤语

最新推荐文章于 2024-08-06 10:22:48 发布

阅读量4.1k

点赞数 1

分类专栏： Spark Greenplum 文章标签： Greenplum

本文链接：https://blog.csdn.net/w1992wishes/article/details/82844910

版权

本文介绍了如何利用Spark SQL的JDBC连接优化查询Greenplum的效率。通过设置`numPartitions`, `partitionColumn`, `lowerBound`, `upperBound`或构造`dbtable`来创建多个Task实现并行查询，提高数据读取速度。同时分析了两种方法的优缺点，第一种可能造成数据分布不均，而第二种方法通过自定义SQL实现更精确的控制，但代码相对复杂。" 121491545,11472815,Linux文件管理：删除、目录操作与IO重定向,"['Linux', 'bash', '运维', '云计算', '云原生']

摘要由CSDN通过智能技术生成

本文结构如下：

前言
Spark SQL 几个属性介绍
Spark 并行查询
总结

一、前言

Spark 支持通过 JDBC 连接关系型数据库，连接方式如下：

// Note: JDBC loading and saving can be achieved via either the load/save or jdbc methods
// Loading data from a JDBC source
val jdbcDF = spark.read
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .load()

val connectionProperties = new Properties()
connectionProperties.put("user", "username")
connectionProperties.put("password", "password")
val jdbcDF2 = spark.read
  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)
// Specifying the custom data types of the read schema
connectionProperties.put("customSchema", "id DECIMAL(38, 0), name STRING")
val jdbcDF3 = spark.read
  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)

// Saving data to a JDBC source
jdbcDF.write
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "