Spark JDBC DataSource 下推全部SQL逻辑

通过源码可以知道,目前Spark JDBC Datasource在拉取数据形成JDBCRDD时,只把查询字段列表,表名和Filter下推到了数据库一侧:
image.png

如果我的sql还有聚合查询,那么聚合查询其实是在Spark端执行的。即先经过过滤把所需字段的所有数据抽取出来形成RDD,在RDD上再执行聚合操作。那能不能把全部SQL都下推到数据库侧呢?
答案是可以的。

看代码逻辑,只要将table变量构成一个子句即可,子句的逻辑就是我要查询的sql逻辑,比如select avg(scores), class from db.test_table where id > 0 and id < 100 group by class,将其构造成一个子句就是:(select avg(scores), class from db.test_table where id > 0 and id < 100 group by class) as result。将该子句带入dbtable 配置中就可以实现SQL逻辑的全部下推。这样spark就可以仅仅作为一个proxy存在。

代码这样写:

spark.read
.format("jdbc")
.option("driver", "com.mysql.jdbc.Driver")
.option("url", "jdbc:mysql://88.88.88.88:3306")
.option("dbtable", "(select avg(scores), class from db.test_table where id > 0 and id < 100 group by class) as result")
.option("user", "power")
.option("password", "mee")
.option("fetchsize", "30")
.load().show

注意:子句中表名前必须加带库名。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值