【C++与Java使用GDAL读写GDB矢量数据的效率问题、以及遇到的坑】

C++与Java使用GDAL读写GDB矢量数据的效率问题、以及遇到的坑

一、引言

最近在写一个GDB数据读并写到PG库的功能,一开始是使用Java调用GDAL来完成的,经过多线程、读写分离、队列等方式优化后速率还是不尽人意,在面临大量数据时耗时依旧很长。GDALC++开发的,于是便想到用C++来开发数据读取的功能,因为C++写入库太麻烦了,所以想到通过 C++KafkaJava的方式,使用Kafka来作中间桥梁,C++读取数据往消息队列里面放,Java从队列里面获取数据再入库。虽然没有C++读取数据后直接入库效率高,但是我本人不是很会C++,更别提用C++写一个类似Mybatis的数据入库框架了。因为是第一次用C++版的GDAL,于是便作了效率验证,发现C++的效率居然没有Java高

我在某乎上也提问过,原文 地址

二、代码

JavaC++都是使用的GDAL3.8.4,并且C++使用MSVC + CMake的方式编译Release版本,添加了优化编译参数 /o2,代码以及结果如下:

Java:

import org.gdal.gdal.gdal;
import org.gdal.ogr.*;

public class Test04 {
    
    public static void main(String[] args) {
        long startTime = System.nanoTime();
        
        gdal.AllRegister();
        gdal.SetConfigOption("GDAL_FILENAME_IS_UTF8", "YES");
        
        Driver driver = ogr.GetDriverByName("OpenFileGDB");
        DataSource dataSource = driver.Open("F:\\dev_file\\test_file\\test.gdb");
        
        int flag = 0;
        for (int i = 0; i < dataSource.GetLayerCount(); i++) {
            Layer layer = dataSource.GetLayer(i);
            
            long l1 = layer.GetFeatureCount();
            for (long l = 0; l < l1; l++) {
                Feature feature = layer.GetNextFeature();
                if (feature == null){
                    continue;
                }
                Geometry geometry = feature.GetGeometryRef();
                //double area = geometry.GetArea();
                //System.out.println("图层:" + i + "的第:" + l + "; 共:" + l1);
                System.out.println("====== 图层:" + i + " ---矢量数据 ---> " 
                				+ feature.GetGeometryRef().ExportToJson());
                flag++;
            }
        }
        System.out.println("共读取到:" + flag);
        
        long endTime = System.nanoTime();
        long duration = (endTime - startTime);  // 单位为纳秒
        System.out.println("耗时: " + duration / 1000000 + "毫秒");
        
    }
}

运行结果:

在这里插入图片描述

C++:

#include <iostream>
#include <chrono>
#include "gdal_priv.h"
#include "ogrsf_frmts.h"

using namespace std;
using namespace std::chrono;

int main() {
    auto start = high_resolution_clock::now();
    GDALAllRegister();
    CPLSetConfigOption("GDAL_FILENAME_IS_UTF8", "YES");
    const char *driver[] = {"OpenFileGDB", nullptr};
    auto *data_set = static_cast<GDALDataset*>(GDALOpenEx(
    											R"(F:\dev_file\test_file\test.gdb)",
                                                          GDAL_OF_VECTOR, driver,
                                                          nullptr, nullptr));
    if (data_set == nullptr){
        cout << "数据源空" << endl;
        exit(-1);
    }
    int total = 0;
    int layer_count = data_set->GetLayerCount();
    for (int i = 0; i < layer_count; ++i) {
        auto *layer = static_cast<OGRLayer*>(data_set->GetLayer(i));
        if (layer == nullptr){
            cout << "图层为空" << endl;
            continue;
        }
        layer->ResetReading();
        int f = 0;
        int *flag = &f;
        OGRFeature *feature;
        GIntBig feature_count = layer->GetFeatureCount();
        while ((feature = layer->GetNextFeature()) != nullptr){
            auto *geom = static_cast<OGRGeometry*>(feature->GetGeometryRef());
            if (geom == nullptr){
                cout << "矢量数据为空" << endl;
                continue;
            }

            auto polygon = (OGRPolygon*)(geom);
            //const double area = polygon->get_Area();
            //cout << "图层:" << i << "的第:" << *flag << "; 共:" << feature_count << endl;
            cout << "矢量数据:" << geom->exportToJson() << endl;
            (*flag)++;
            OGRFeature::DestroyFeature(feature);
        }
        total = total + *flag;
    }
    cout << "共读取到:" << total << endl;
    GDALClose(data_set);
    auto stop = high_resolution_clock::now();
    auto duration = duration_cast<microseconds>(stop - start);
    cout << "耗时: " << duration.count() / 1000 << " 毫秒" << endl;
    return 0;
}

运行结果:

在这里插入图片描述

一开始我以为是驱动的问题,因为C++在读取数据时用的是 GDALOpenEx()函数,这个函数的第三个参数需要填一个驱动信息,但是也可以不填,如果不填GDAL就会自动获取适合数据的驱动,我手动指定了,发现效率并未提高。

再后来我以为是内存管理的问题,优化了读取过程中的指针产生以及销毁,发现效率并未有任何提升。

三、总结

经过对比,发现C++的效率慢了不少,并且网上也没有前例,根本就无从下手。

理论上,Java运行在JVM上,并且调用GDAL读取数据存在频繁的跨语言调用,它的效率应该比C++的更低才对,但是现实结果与理论相悖,确实很让人摸不着头脑。

后来经过很多的摸索后,我将控制台打印输出去掉了,并且替换为了实时计算每个Feature的矢量的面积,使用函数:Geometry.GetArea(),运行最终发现C++的效率大幅度提升,是Java的一倍多。

通过这个结果,我们可以总结到,如果要比较两个语言的效率,尽量不要涉及到IO操作,控制台打印就是一个耗时的IO操作。此外,根据这个结果可以认为C++的控制台打印效率没有Java的高。

还有一个让我疑惑的是,Java在去掉控制台打印后,效率反而下降了,这个暂时没有搞清楚,后续有空再了解吧。

这个问题确实困扰了我很久,看起来也是一个不起眼的问题,希望你们别再遇到类似我的这种低级的问题。

  • 23
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
GDAL(Geospatial Data Abstraction Library)是一个开源的地理空间数据处理库,可以用于读取、写入和操作各种不同格式的地理空间数据文件。而GDB(Geodatabase)是ESRI公司的一种地理数据库格式,GDB文件可以存储各种地理空间数据,如矢量数据、栅格数据、拓扑数据等。 在C语言中使用GDAL库读取GDB文件时,可以按照以下步骤进行: 1. 首先,需要在代码中包含GDAL的头文件。例如: ```c #include "gdal.h" ``` 2. 创建GDAL数据集对象,用于打开GDB文件并获取其中的数据。例如: ```c GDALDatasetH hDataset; // GDAL数据集对象指针 hDataset = GDALOpenEx("path_to_gdb_file", GDAL_OF_VECTOR, NULL, NULL, NULL); ``` 3. 获取数据集中的图层数量和每个图层的名称。例如: ```c int layerCount = GDALDatasetGetLayerCount(hDataset); // 获取图层数量 for (int i = 0; i < layerCount; i++) { OGRLayerH hLayer = GDALDatasetGetLayer(hDataset, i); // 获取第i个图层 const char* layerName = OGR_FD_GetName(GDAL_L_GetLayerDefn(hLayer)); // 获取图层名称 // 打印图层名称 printf("Layer %d: %s\n", i, layerName); } ``` 4. 读取图层中的要素数据。例如: ```c OGRLayerH hLayer = GDALDatasetGetLayer(hDataset, layerIndex); // 获取第layerIndex个图层 OGRFeatureH hFeature; OGR_L_ResetReading(hLayer); // 重置读取位置 while((hFeature = OGR_L_GetNextFeature(hLayer)) != NULL) { // 获取要素的属性值 OGRFeatureDefnH hFeatureDefn = OGR_L_GetLayerDefn(hLayer); int fieldCount = OGR_FD_GetFieldCount(hFeatureDefn); // 获取属性字段数量 for (int j = 0; j < fieldCount; j++) { OGRFieldDefnH hFieldDefn = OGR_FD_GetFieldDefn(hFeatureDefn, j); const char* fieldName = OGR_Fld_GetNameRef(hFieldDefn); // 获取字段名称 int fieldValue = OGR_F_GetFieldAsInteger(hFeature, j); // 获取字段值(整数类型) // 打印字段名称和值 printf("Field %s: %d\n", fieldName, fieldValue); } OGR_F_Destroy(hFeature); // 释放要素对象 } ``` 5. 最后,记得关闭GDAL数据集并释放资源。例如: ```c GDALClose(hDataset); // 关闭数据集 ``` 以上就是利用GDAL库在C语言中读取GDB文件的基本步骤。可根据实际需要进行进一步的数据处理和操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值