以下为授权转载的一盎司科技公众号文章
DuckDB类似于SQLite,也被设计用作可嵌入的数据库,是面向列的可嵌入 OLAP 数据库。兼容主流操作系统,并可以在主流编程语言中使用。这里简单介绍在Python中使用DuckDB数据库。详细介绍可参考官方文档(http://duckdb.org/docs)。
示例代码地址:
GitHub地址:https://github.com/iounce/python-cpp-demo
Gitee地址:https://gitee.com/iounce_admin/python-cpp-demo
环境
-
Windows操作系统:Windows10(21H2,19044.1766)
-
C++开发环境:Visual Studio 2022社区版
-
Python:3.10.4
-
DuckDB: 0.8.1
安装DuckDB
在Python中使用,直接使用如下命令安装即可:
pip install duckdb
DuckDB库API
Python中使用DuckDB还是比较方便的,可以与CSV,JSON等文件结合,还可以与pandas的DataFrame进行输入输出转换。
常用API如下:
-
duckdb.read_csv: 从CSV文件获取数据;
-
duckdb.read_json: 从JSON文件获取数据;
-
duckdb.connect: 连接数据库,如果指定的数据库不存在则创建一个新的;
-
connection.execute:执行一条sql语句,如insert,select语句;
-
connection.sql:执行一条sql语句,类似connection.execute;
-
connection.fetchall:获取查询结果集的所有行数据,返回一个列表;
-
connection.close:关闭数据库连接。
DuckDB封装类
根据上述API,这里简单做个封装处理,接口类似上一篇SQLite,方便调用。
-
构造函数__init__:增加数据库文件名的入参,并初始化变量等。
-
打开函数open():打开DuckDB连接,用于后续调用,这里加入异常判断。
-
写入函数insert()/insert_batch():根据设置好的SQL语句,执行写入操作,批量接口和单条一样,sql中增加多条语句即可。
-
查询函数query():调用API和insert()函数类似,都是execute接口,但是查询会调用fetch_all接口,用于返回结果。
-
执行函数execute():这里自定义的执行函数,其实为了方便封装create和delete函数,其实都是调用execute接口,只是方便调用者区分使用,其实调用insert()函数也可以。
-
关闭函数close():用于关闭连接,释放资源。
示例代码
接下来,我们使用封装好的DuckDB类来编写测试代码,简单起见,直接写SQL语句调用。首先打开数据库,创建名为tb_test的表,然后写入测试数据,接着查询数据,最后关闭连接。
此处的示例与上一篇SQLite类似,只是sql脚本有些许差别。
说明:
-
这里DuckDB自增长需要使用sequence来实现,通过nextval('seq')函数获取唯一值;
-
insert语句中,表后面的字段无需加单引号(加了反而报错)。
这里只是简单介绍Python下的DuckDB的使用,可以根据需要继续完善封装类,更多用法也可以官方参考文档。