关于优化内存的方向

数据量太大,节省内存的几种方式

1、使用nrows和skip_rows来读取。提前申明dtype和usecols,可以节省内存空间。
train_data=pd.read_csv(train_dir,skiprows=range(1,SKIP_ROWS),nrows=TRAIN_ROWS,dtype=dtypes,usecols=use_cols)

2、如果要兼顾内存和速度。可以使用reader来分块阅读。在创建reader的时候,并没有真正读取数据,等到for循环的时候才读取。

train_reader=pd.read_csv(train_dir,iterator=True,chunksize=chunk_size,dtype=dtypes,usecols=use_cols)

在for循环中,才真正读取数据。

for chunk in train_reader : 
	train_data=pd.concat([train_data,chunk],ignore_index=True)

3、要善用垃圾回收,及时删除不需要的变量

del test_data
gc.collect()

4、对数据进行类型转换,及时减少内存。

train_data[col_name]=train_data[col_name].astype('uint8')

5、转换数据格式
使用其它格式能加速数据载入并且降低内存占用。好的选择像 GRIB、NetCDF、HDF 这样的二进制格式。
有很多命令行工具能帮你转换数据格式,而且不需要把整个数据集载入内存里。换一种格式,可能帮助你以更紧凑的形式存储数据,节省内存空间;比如 2-byte 整数,或者 4-byte 浮点。

6. 流式处理数据,或渐进式的数据加载

所有数据如果不需要同时出现在内存里,可以用代码或库,随时把需要的数据做流式处理或渐进式加载,导入内存里训练模型。这可能需要算法使用优化技术迭代学习,比如使用随机梯度下降。那些需要内存里有所有数据、以进行矩阵运算的算法,比如某些对线性回归和逻辑回归的实现,就不适用了。
比如,Keras 深度学习 API 就提供了渐进式加载图像文件的功能,名为 flow_from_directory
另一个例子式 Pandas 库,可批量载入大型 CSV 文件。
7. 使用关系数据库(Relational database)
关系数据库为存储、访问大型数据集提供了标准化的方法。
在内部,数据存在硬盘中,能渐进式地 in batch 批量加载,并使用标准检索语言 SQL 检索。
像 MySQL、Postgres 这样的开源数据库工具,支持绝大多数的(全部?)编程语言。许多机器学习工具,都能直接与关系数据库连通。你也可以用 SQLite 这样更轻量的方法。这种方法对大型表格式数据集非常有效率。

转载于:https://my.oschina.net/u/3726752/blog/2877909

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值