Why DuckDB系列:
Why DuckDB
Python单机查询1.5亿行数据秒出
DuckDB批量转CSV为Parquet
昨天文章里提到的AirOnTimeCSV.zip包含了303个csv文件,使用Spark可以方便地将它们转为parquet存储,如果不巧你不熟悉Spark,那也没有关系,试试DuckDB的强大功能。
DuckDB支持输出csv和parquet,代码如下,
copy (select * from tbl) to 'tbl.parquet' (format 'parquet')copy (select * from tbl) to 'tbl.csv' (format 'csv')
所以单个csv转parquet可以这样实现,
copy (select * from read_csv_auto('AirOnTimeCSV/airOT200103.csv')) to'airOT200103.parquet' (format 'parquet')
那AirOnTimeCSV有303个