Spark读JDBC提前过滤数据

最新推荐文章于 2024-06-12 16:14:47 发布

小白鸽

最新推荐文章于 2024-06-12 16:14:47 发布

阅读量1.3k

点赞数 2

分类专栏： Spark 文章标签： spark jdbc 提前过滤查询

本文链接：https://blog.csdn.net/baifanwudi/article/details/78772248

版权

Spark 专栏收录该内容

28 篇文章 4 订阅

订阅专栏

读取Mysql方法见:

http://blog.csdn.net/baifanwudi/article/details/78559177

有这样一个需求,读取mysql某一个表某一天数据;

        String beginTime = day+ " 00:00:00";
        String endTime = day + " 23:59:59";
        Dataset<Row> jdbcTable=spark.read().format("jdbc")
                .option("url", PropertiesConfig.URL)
                .option("dbtable",tableName)
                .option("user",PropertiesConfig.USERNAME)
                .option("password",PropertiesConfig.PASSWORD).load().filter("create_time between '"+beginTime+"' and '"+endTime+"'");

发现spark是把所有该tableName所有数据load进spark再filter,速率很慢.
所以想,是否提前过滤, 终于找到方法:

    String tableName= "(select * from device_info where create_time between '"+ beginTime + "' and '" + endTime + "' ) as device_time_filter";

    Dataset<Row> jdbcTable=spark.read().format("jdbc")
                .option("url", PropertiesConfig.URL)
                .option("dbtable",tableName)
                .option("user",PropertiesConfig.USERNAME)
                .option("password",PropertiesConfig.PASSWORD).load().

只要在该mysql表的create_time建index,效率快很多.
原理就是先从mysql 先过滤读device_info 张表重命名为device_time_filter.

小白鸽

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
Spark读JDBC提前过滤数据

读取Mysql方法见: http://blog.csdn.net/baifanwudi/article/details/78559177有这样一个需求,读取mysql某一个表某一天数据; String beginTime = day+ " 00:00:00"; String endTime = day + " 23:59:59"; Dataset<
复制链接

扫一扫

专栏目录