数据量太大，节省内存的几种方式

最新推荐文章于 2023-04-11 15:35:37 发布

七里云

最新推荐文章于 2023-04-11 15:35:37 发布

阅读量2.8k

点赞数 2

分类专栏： python 内存文章标签：大数据内存 python

本文链接：https://blog.csdn.net/ch_yunyun/article/details/80237149

版权

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1、使用nrows和skip_rows来读取。提前申明dtype和usecols，可以节省内存空间。

train_data=pd.read_csv(train_dir,skiprows=range(1,SKIP_ROWS),nrows=TRAIN_ROWS,dtype=dtypes,usecols=use_cols)

2、如果要兼顾内存和速度。可以使用reader来分块阅读。在创建reader的时候，并没有真正读取数据，等到for循环的时候才读取。

train_reader=pd.read_csv(train_dir,iterator=True,chunksize=chunk_size,dtype=dtypes,usecols=use_cols)

在for循环中，才真正读取数据。

for chunk in train_reader : 
  train_data=pd.concat([train_data,chunk],ignore_index=True)

3、要善用垃圾回收，及时删除不需要的变量

del test_data
gc.collect()

4、对数据进行类型转换，及时减少内存。

train_data[col_name]=train_data[col_name].astype('uint8')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注