可以使用pandas
库将CSV文件读取到DataFrame中,然后使用pyarrow
库将DataFrame保存为Parquet文件。Parquet是一种列式存储格式,它通常比CSV更高效地处理大型数据集。减小内存。
pip install pandas pyarrow
import pandas as pd
# 读取CSV文件到DataFrame
df = pd.read_csv('your_large_file.csv')
# 将DataFrame保存为Parquet文件
df.to_parquet('your_large_file.parquet')