mybatis 第一次执行sql语句慢_PySpark 之批量执行SQL语句

客户的一些复杂分析以PostgreSQL的存储过程实现,由于数据比较大,执行速度很慢,在决定用PySpark重写的时候,碰到这样一个问题,Spark SQL不支持执行多语句SQL,更不支持存储过程,如果把每个sql都用spark.sql来写,代码会变得很臃肿,另外如果sql发生改动,还需要改写Python代码,有没有简单的办法来执行一个包含多语句的sql脚本,就像spark-sql那样呢?

假设我们有这样一个包含多条sql语句的脚本,名字叫length_of_play.sql,

DROP VIEW IF EXISTS shakespeare;-- Read all of Shakespeare's playsCREATE TEMPORARY VIEW shakespeare  USING parquet  OPTIONS (path "data/shakespeare.gz.parquet");-- Print the table schema and additional informations to the consoleDESCRIBE EXTENDED shakespeare;-- Calculate number of lines of each work and print to the consoleSELECT play_name, count(line_id) AS lines  FROM shakespeare  GROUP BY play_name  ORDER BY lines DESC  LIMIT 20;-- Save the result as one file in JSON Lines formatDROP
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值