Pandas DataFrame 存储格式性能对比！

最新推荐文章于 2024-08-03 12:19:16 发布

壹只小小码农

最新推荐文章于 2024-08-03 12:19:16 发布

阅读量850

点赞数 7

文章标签： pandas 开发语言 python 信息可视化

本文链接：https://blog.csdn.net/Java_Joker/article/details/136254930

版权

本文详细介绍了如何使用Pandas创建包含不同类型数据的测试DataFrame，并测试了CSV、Pickle、Parquet、ORC、Feather和HDF5等格式的写入、读取速度以及文件大小，分析了各种格式的优缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

创建测试Dataframe

首先创建一个包含不同类型数据的测试Pandas Dataframe。



 import pandas as pd  
 import random  
 import string  
 import numpy as np  
   
 # Config DF  
 df\_length= 10\*\*6  
 start\_date= '2023-01-01'  
 all\_string= list(string.ascii\_letters + string.digits)  
 string\_length= 10\*\*1  
 min\_number= 0  
 max\_number= 10\*\*3  
   
 # Create Columns  
 date\_col= pd.date\_range(start= start\_date, periods= df\_length, freq= 'H')  
 str\_col= \[''.join(np.random.choice(all\_string, string\_length)) for i in range(df\_length)\]  
 float\_col= np.random.rand(df\_length)  
 int\_col= np.random.randint(min\_number,max\_number, size = df\_length)  
   
 # Create DataFrame  
 df= pd.DataFrame({'date\_col' : date\_col,  
                  'str\_col' : str\_col,  
                  'float\_col' : float\_col,  
                  'int\_col' : int\_col})  
 df.info()  
 df.head()

以不同的格式存储

接下来创建测试函数，以不同的格式进行读写。



 import time  
 import os  
   
 def check\_read\_write\_size(df, file\_name, compression= None) :  
    format= file\_name.split('.')\[\-1\]  
    # Write  
    begin= time.time()  
    if file\_name.endswith('.csv') : df.to\_csv(file\_name, index= False, compression= compression)  
    elif file\_name.endswith('.parquet') : df.to\_parquet(file\_name, compression= compression)  
    elif file\_name.endswith('.pickle') : df.to\_pickle(file\_name, compression= compression)  
    elif file\_name.endswith('.orc') : df.to\_orc(file\_name)  
    elif file\_name.endswith('.feather') : df.to\_feather(file\_name)  
    elif file\_name.endswith('.h5') : df.to\_hdf(file\_name, key= 'df')  
    write\_time= time.time() - begin  
    # Read  
    begin= time.time()  
    if file\_name.endswith('.csv') : pd.read\_csv(file\_name, compression= compression)  
    elif file\_name.endswith('.parquet') : pd.read\_parquet(file\_name)  
    elif file\_name.endswith('.pickle') : pd.read\_pickle(file\_name, compression= compression)  
    elif file\_name.endswith('.orc') : pd.read\_orc(file\_name)  
    elif file\_name.endswith('.h5') : pd.read\_hdf(file\_name)  
    read\_time= time.time() - begin  
    # File Size  
    file\_size\_mb = os.path.getsize(file\_name) / (1024 \* 1024)  
    return \[format, compression, read\_time, write\_time, file\_size\_mb\]

然后运行该函数并将结果存储在另一个Pandas Dataframe中。



 test\_case= \[  
            \['df.csv','infer'\],  
            \['df.csv','gzip'\],  
            \['df.pickle','infer'\],  
            \['df.pickle','gzip'\],  
            \['df.parquet','snappy'\],  
            \['df.parquet','gzip'\],  
            \['df.orc','default'\],  
            \['df.feather','default'\],  
            \['df.h5','default'\],  
            \]  
   
 result= \[\]  
 for i in test\_case :  
    result.append(check\_read\_write\_size(df, i\[0\], compression= i\[1\]))  
   
 result\_df= pd.DataFrame(result, columns= \['format','compression','read\_time','write\_time','file\_size'\])  
 result\_df

测试结果

下面的图表和表格是测试的结果。