csv转为utf8编码_DuckDB批量转CSV为Parquet

本文介绍了如何使用DuckDB将大量CSV文件批量转换为Parquet格式,重点在于处理非UTF8编码的问题。通过Python脚本和DuckDB的命令行工具,可以方便地完成转换工作,同时提到了文件编码转换的工具和注意事项。
摘要由CSDN通过智能技术生成

5a65aed477d91a74498c5c9710bf0a89.png

Why DuckDB系列:

  • Why DuckDB

  • Python单机查询1.5亿行数据秒出

  • DuckDB批量转CSV为Parquet

昨天文章里提到的AirOnTimeCSV.zip包含了303个csv文件,使用Spark可以方便地将它们转为parquet存储,如果不巧你不熟悉Spark,那也没有关系,试试DuckDB的强大功能。

DuckDB支持输出csv和parquet,代码如下,

copy (select * from tbl) to 'tbl.parquet' (format 'parquet')copy (select * from tbl) to 'tbl.csv' (format 'csv')

所以单个csv转parquet可以这样实现,

copy (select * from read_csv_auto('AirOnTimeCSV/airOT200103.csv')) to'airOT200103.parquet' (format 'parquet')

那AirOnTimeCSV有303个

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值