昨天介绍了Why DuckDB,今天就用它来体验在Python下1.5亿行数据的查询。
数据
最早知道 AirOnTime87to12 是学Sparklyr的时候看到一篇文章,使用Sparklyr导入30GB数据[1],具体文章内容,有兴趣的自己看,这里就不展开了。
AirOnTime87to12是一份航线准点率( On-time performance,OTP)的压缩包:
303 个CSV,大小30G
148617414 行数据,29个变量
Zip压缩包4.2G
2013年8月由transtats.bts.gov提供下载
转为snappy压缩的parquet 2.4G
硬件环境
OS:MacOS 10.15.6 (19G2021)
CPU:2.8 GHz Quad-Core Intel Core i7
MEM:16 GB 1600 MHz DDR3
HD:1T SSD
Python
Python 3.7