由MapTile引发的ResultSet的思考及实践

言成言成啊

已于 2024-06-11 22:04:38 修改

阅读量953

点赞数 25

分类专栏： java 文章标签： java

于 2024-06-02 23:50:34 首次发布

本文链接：https://blog.csdn.net/qq_30460361/article/details/139400033

版权

java 专栏收录该内容

30 篇文章 1 订阅

订阅专栏

其实这篇文章应该是上周末来写的，但是苦逼啊。别人都抱怨工作996，我特么直接9117了，连轴转12天，完全没有个人时间，苦逼啊！

本来周末计划看完龙珠Z（日语）布欧篇呢，给自己一个过儿童节的仪式感，结果也只看了一点，时间太紧张了。

要写的代码、要总结的东西太多了。至于ResultSet这个，从梳理思路、验证逻辑、查阅资料、理解原理、总结记录，又花了我小一天时间，搞到半夜。

一、背景

我五一的时候，写脚本通过代理爬取osm的栅格瓦片数据（即PNG图片），来将我之前写的wkt在线绘制展示_EPSG4326_致敬开源实现瓦片本地化。

对于瓦片数据来说，整个世界都是正方形的，如下图。

瓦片数据按层级划分如下

zoom level	edge length	number of tiles
0	1	1*1
1	2	2*2
2	4	4*4
3	8	8*8
4	16	16*16
5	32	32*32
6	64	64*64
7	128	128*128
8	256	256*256
9	512	512*512
10	1024	1024*1024
11	2048	2048*2048
12	4096	4096*4096
13	8192	8192*8192
14	16384	16384*16384
15	32768	32768*32768
16	65536	65536*65536
17	131072	131072*131072
18	262144	262144*262144
19	524288	524288*524288

想要爬取所有层级的栅格瓦片，数据量还是很大的。我从0层级一直爬取到19层级，需要存储14_3165_5765个瓦片，我存入了PostgreSQL。数据库肯定要有对应的可视化工具才好使呀，对于咱们这种面向SQL编程的码农来说，最常见的数据库可视化工具就两种

dbeaver：开源免费
navicat：闭源付费

在结合这两个工具进行操作时，偶然发现，navicat和dbeaver中执行相同的SQL语句 select * from tiles 时，navicat会出现卡死无响应的情况，而dbeaver不仅不会卡、还会快速的查出前200条数据来。

怎么会出现这种情况呢，按理来说，navicat是闭源付费的，应该做的比dbeaver更好才对啊。

针对这个问题，我从原生的JDBC展开了探索。

二、ResultSet查询调优

以下调优只针对于PostgreSQL数据库。并不适用其他数据库。

通过自己手撕原生的JDBC查询ResultSet、以及查阅pgJDBC官方文档发现有两种查询方式。

默认参数结果集，驱动程序会一次性收集查询的所有结果行，通俗说是多量少次。这也是我们最常使用的方式了，但是数据量大时，会卡爆程序内存和网络带宽。
参数调优结果集，需要关闭查询时的事务，通俗说是少量多次。对于pg来说，查询时的事务也是默认开启的。这个方式对程序来说是性能最优之选。

pgJDBC文档描述如下图

下面就直接进行实战，源码地址为meethigher/result-set-test: this is a postgresql result-set demo

/**
 * 方案一：
 * 使用select * from table where order by 进行查询，但是使用默认方式
 */
private void plan1(String startTime, String endTime) {
    StringBuilder queryBuilder = new StringBuilder("select * from ")
            .append(jdbcUtils.getTableName())
            .append(" where ")
            .append(jdbcUtils.getFieldArray()[2]).append(" >= ? and ").append(jdbcUtils.getFieldArray()[2])
            .append(" <= ? order by ").append(jdbcUtils.getFieldArray()[2]).append(" asc");
    long start = System.currentTimeMillis();
    long startUsedMemory = memoryMonitor.getUsedMemory();
    try (Connection connection = jdbcUtils.getJdbcTemplate().getDataSource().getConnection()) {
        PreparedStatement ps = connection.prepareStatement(queryBuilder.toString());
        ps.setObject(1, startTime);
        ps.setObject(2, endTime);
        ResultSet rs = ps.executeQuery();
        log.info("plan1 consumed {}, {}", TimeUtils.humanizedFormat(System.currentTimeMillis(), start),
                memoryMonitor.convertBytes(memoryMonitor.getUsedMemory() - startUsedMemory));
    } catch (Exception ignore) {
    }
}

/**
 * 方案二：
 * 使用select * from table where order by 进行查询，但是使用参数调优
 */
private void plan2(String startTime, String endTime) {
    StringBuilder queryBuilder = new StringBuilder("select * from ")
            .append(jdbcUtils.getTableName())
            .append(" where ")
            .append(jdbcUtils.getFieldArray()[2]).append(" >= ? and ").append(jdbcUtils.getFieldArray()[2])
            .append(" <= ? order by ").append(jdbcUtils.getFieldArray()[2]).append(" asc");
    long start = System.currentTimeMillis();
    long startUsedMemory = memoryMonitor.getUsedMemory();
    try (Connection connection = jdbcUtils.getJdbcTemplate().getDataSource().getConnection()) {
        //对于postgresql，只有关闭事务，setFetchSize才会生效
        connection.setAutoCommit(false);
        //对于postgresql，后面的两个参数其实也就是默认值时使用的
        PreparedStatement ps = connection.prepareStatement(queryBuilder.toString(), ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY);
        ps.setFetchSize(1000);
        ps.setFetchDirection(ResultSet.FETCH_FORWARD);
        ps.setObject(1, startTime);
        ps.setObject(2, endTime);
        ResultSet rs = ps.executeQuery();
        log.info("plan2 consumed {}, {}", TimeUtils.humanizedFormat(System.currentTimeMillis(), start),
                memoryMonitor.convertBytes(memoryMonitor.getUsedMemory() - startUsedMemory));
    } catch (Exception ignore) {
    }
}

运行结果如下图

综上可知，其实对于这种大数据量来说少量多次的查询远比多量少次的查询要好的多，至少对程序和数据库来说，都是上上只选。这应该也就是navicat会卡死、而dbeaver不仅不会卡死而且查得还很快的原因了吧！

三、参考致谢

How to calculate number of tiles in a bounding box for OpenStreetMaps | by Abhi | Medium

Tiles à la Google Maps: Coordinates, Tile Bounds and Projection | No code | MapTiler

Issuing a Query and Processing the Result | pgJDBC

PostgreSQL: Documentation: 7.4: Issuing a Query and Processing the Result

言成言成啊

关注

25
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
由MapTile引发的ResultSet的思考及实践

其实这篇文章应该是上周末来写的，但是苦逼啊。别人都抱怨工作996，我特么直接9117了，连轴转12天，完全没有个人时间，苦逼啊！本来周末计划看完呢，给自己一个过儿童节的仪式感，结果也只看了一点，时间太紧张了。要写的代码、要总结的东西太多了。至于ResultSet这个，从梳理思路、验证逻辑、查阅资料、理解原理、总结记录，又花了我小一天时间，搞到半夜。
复制链接

扫一扫

专栏目录