[DL021]Panda批量数据类型转换，读取时间、内存占用

最新推荐文章于 2023-08-31 10:58:18 发布

吾日三省吾身LX

最新推荐文章于 2023-08-31 10:58:18 发布

阅读量481

点赞数

分类专栏：日常学习文章标签： python csv pandas 类型转换

本文链接：https://blog.csdn.net/weixin_37887116/article/details/115858505

版权

日常学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

梗概：
pandas读取一个2.2GB左右的csv文件,转换float64为float32类型，进行内存上的缩减。
文件说明：802行，除了第0和最后一行外都是float64格式的存储
代码：

import time
import pandas as pd 
import os
import numpy as np 
DatasetPath = '/home/Datasets/Astro_Part4DL/Astropart.csv'
# 获取文件磁盘占用大小
print('File Usage {} GB'.format((os.path.getsize(DatasetPath))/ 1024**3))

df_start_time = time.time()
df = pd.read_csv(DatasetPath, sep=',')
print(df.dtypes[0:6])
df_end_time = time.time()
df_total_time =  df_end_time - df_start_time
# 输出文件的读取时间
print('df read time {} s'.format(df_total_time))
# 数据文件的内存占用
print('df float64 Memory Usage {} MB'.format(df.memory_usage().sum() / 1024**2))

to_f32 = {}
for col in df.columns:
    if col.startswith('point'):
        to_f32[col] = 'float32'

print('*'*40)

df1_start_time = time.time()
df1 = pd.read_csv(DatasetPath, sep=',', dtype=to_f32)
print(df1.dtypes[0:6])
df1_end_time = time.time()
df1_total_time = df1_end_time - df1_start_time
# 输出文件的读取时间
print('df1 read time {} s'.format(df1_total_time))
# 数据文件的内存占用
print('df1 trans float32 Memory Usage {} MB'.format(df1.memory_usage().sum() / 1024**2))

输出：

File Usage 2.148865501396358 GB
[5 rows x 802 columns]
ID         object
point0    float64
point1    float64
point2    float64
point3    float64
point4    float64
dtype: object
df read time 20.757500886917114 s
df float64 Memory Usage 978.3126068115234 MB
****************************************
[5 rows x 802 columns]
ID         object
point0    float32
point1    float32
point2    float32
point3    float32
point4    float32
dtype: object
df1 read time 18.900606155395508 s
df1 trans float32 Memory Usage 490.37620544433594 MB

结论：
内存缩减约一半，读取速度亦有所加快。

吾日三省吾身LX

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[DL021]Panda批量数据类型转换，读取时间、内存占用

梗概：pandas读取一个2.2GB左右的csv文件,转换float64为float32类型，进行内存上的缩减。文件说明：802行，除了第0和最后一行外都是float64格式的存储import timeimport pandas as pd import osimport numpy as np DatasetPath = '/home/Datasets/test.csv'print('File Usage {} GB'.format((os.path.getsize(DatasetPath
复制链接

扫一扫