MemoryError的处理方式

最新推荐文章于 2024-06-13 20:25:32 发布

Ther_T

最新推荐文章于 2024-06-13 20:25:32 发布

阅读量9.5k

点赞数 4

分类专栏：报错解决方案文章标签： python pycharm 开发语言

本文链接：https://blog.csdn.net/sylviatam/article/details/121779289

版权

报错解决方案专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Bug：MemoryError: Unable to allocate 4.34 GiB for an array with shape (40442, 80, 60, 3) and data type float64

记录几种查到的解决策略：
1. 低精度保存数据
一般计算上通过numpy得到的16位浮点数。float64占用的内存是float32的两倍，是float16的4倍，比如对于CIFAR10数据集，如果采用float64来表示，需要60000323238/1024**3=1.4G60000∗32∗32∗3∗8/1024∗∗3=1.4G，光把数据集调入内存就需要1.4G；如果采用float32，只需要0.7G，如果采用float16，只需要0.35G左右。占用内存的多少，会对系统运行效率有严重影响，因此数据集文件都是采用uint8来存在数据，保持文件最小。

2. 更新python为64位，更新Pandas/Numpy库为64位
Python 32bit 最大只能使用 2G 内存。32位的Python安装的pandas和Numpy也只能是32位的，那么当内存使用超过2G时，就会自动终止内存，而 64bit python则无此限制。
查看Python位数：在shell中输入python。

3. 修改pycharm的运行内存
内存使用率不高，但出现MemoryError，可能存在内存限制。

Help\rightarrow→Find Action\rightarrow→(type “VM
Options”)\rightarrow→(Click)“Edit Custom VM Options”；
打开pycharm64.exe.vmoptions进行编辑；
修改-Xmx750m 为 -Xmx4096m 分配4G内存，视情况而定；
保存并重启pycharm。

4. 扩充虚拟内存
具体设置：

右键点击我的电脑，选择“属性；
在打开的面板中依次打开高级系统设置—高级选项卡—性能设置—高级选项卡—更改，进入虚拟内存的设置界面；
将自动管理所有驱动器的分页文件大小选项前的方框里的勾取消，选择一个盘符（尽量是非系统盘），选择自定义大小，将初始大小和最大值尽量设置为同一数值（可以根据自己电脑的物理内存设置，如电脑物理内存是2GB，就在3GB到6GB之间选择一个数值），然后点击设置，最后点击确定并重启电脑。
物理内存与虚拟内存：
物理内存

物理内存是真实存在的，它的表现形式是插在电脑主板上的内存条，看机器配置的时候，看的就是物理内存；
内存条的读写速度达到2700MB/s以上；
物理内存容量由内存条决定，内存条是多少GB，物理内存就是多少GB；
物理内存是与CPU进行沟通的桥梁。
虚拟内存

虚拟内存是虚拟存在的，其实是电脑匀出一部分硬盘空间来充当内存使用。当内存耗尽时，电脑就会自动调用硬盘来充当内存，以缓解内存的紧张；
普通机械硬盘读写速度只有150MB/s，即使是固态硬盘也仅可以达到500MB/s，因而与物理内存相比虚拟内存的读写速度都非常慢；
虚拟内存的容量大小可以通过设置进行改变；
虚拟内存是在计算机运行程序或操作所需的物理内存不足时，起到补偿作用。
即便你的内存已经大到“无可救药”的地步，也不应该将虚拟内存关闭，因为除了传统的为RAM“后备”这一功能外，Windows也会利用虚拟内存执行一些特定操作。此外虚拟内存的打开还有助于提高内存命中率及保证系统稳定，个别软件(如Photoshop、3Dmark等)在运行时也会需要虚拟内存。

电脑,虚拟内存,物理内存,有什么区别。,哪个更好。| 内存管理介绍

5. 优化数据读取方式
关于 TensorFlow 读取数据的方法，官网给出了三种方法：

供给数据：在 TensorFlow 程序运行的每一步，让 Python 代码来供给数据。
从文件读取数据：在 TensorFlow 图的起始，建立一个输入管线从文件中读取数据。
预加载数据：在 TensorFlow 图中定义常量或变量来保存所有数据(仅适用于数据量比较小的情况)。
用户处理输入数据的典型流程是：首先将输入数据集从文件系统种读取到内存中，然后将其转换为模型需要的输入数据格式，接着以某种方式传入数据流图，继而开始真正的模型训练过程。
输入数据集一般被存储在各种类型的文件系统中，根据文件系统类型和输入数据集大小，有两种不同的数据读取方法：

大数据集：(如 ImageNet )一般由大量数据文件构成，因为数据规模太大，所以无法一次性全部加载到内存中，因为太耗内存，这个时候最好使用 TensorFlow 提供的队列 queue ，也就是第二种方法从文件读取数据。大数据集时则多采用 TFRecords 格式。
小数据集：(如 MNIST )可能仅包含一个文件，因此用户可以在模型训练开始前一次性地将其加载到内存处理，然后再分batch 输入网络进行训练，也就是第三种方法预加载数据。小数据集时多采用 minibatch。
稀疏数据的存储
在数据是稀疏的情况下，如训练集中大量one hot特征，此时把dense的数据转成sparse的存储方式可以减小内存占用，可以参考scipy里面的sparse模块，里面有多种支持sparse存储的数据结构可以直接调用。但是注意该模块的集中数据结构至少都需要dense数据2-3倍的空间来存储，也就是说，如果数组中sparse的只有一半甚至更少，那使用sparse结构只会占用更多的空间，只有在数据中大量都是稀疏的情况下才能用。

python处理大训练集过程中遇到的Memory Error问题解决

使用pandas中read_csv的块读取
块读取：不会一次性把所有的数据都放到内存中来，而是分块读到内存中，最后再将块合并到一起，形成一个完整的DataFrame。
with open(path) as f:
data = pd.read_csv(path, sep=’,’,engine = ‘python’,iterator=True)
loop = True
index,chunkSize,chunks = 0,1000,[]
while loop:
try:
print(index)
chunk = data.get_chunk(chunkSize)
chunks.append(chunk)
index+=1
except StopIteration:
loop = False
print(“Iteration is stopped.”)
print(‘开始合并’)
data = pd.concat(chunks, ignore_index= True)
read()/readline()/readlines()
read()：一次性读取文件的全部内容，如果文件很小，一次性读取最方便；
read(size)：每次最多读取size个字节的内容，如果不能确定文件大小，反复调用read(size)比较保险；
readline()：每次读取一行内容；
readlines()：一次读取所有内容并按行返回list，如果是配置文件，调用readlines()最方便：
处理大文件是很容易想到的就是将大文件分割成若干小文件处理，处理完每个小文件后释放该部分内存。

def read_in_chunks(filePath, chunk_size=1024*1024):
“”"
Lazy function (generator) to read a file piece by piece.
Default chunk size: 1M
You can set your own chunk size
“”"
with open(filePath) as file_object:
while True:
chunk_data = file_object.read(chunk_size)
if not chunk_data:
break
yield chunk_data
if name == “main”:
filePath = ‘./path/filename’
for chunk in read_in_chunks(filePath):
process(chunk) #
HDF5文件
批量读写HDF5文件：Python处理HDF5文件：h5py库

TFRecords 格式
TFRecords 格式和 h5py 格式是类似的效用。

TensorFlow学习笔记之30分钟学会 TFRecords 格式高效处理数据
tensorflow TFRecords文件的生成和读取方法

6. 手动回收变量（Python）
Python的垃圾回收机制比较懒惰，有时候在一个for循环中的变量用完不会回收，下次重新初始化的时候又重新开辟了空间，这时候可以手动del这个变量，del x，然后import gc, 然后手动gc.collect()。

Python学习：numpy库数据量太大出现Memory Error问题的解决方法汇总
win10 pycharm 出现MemoryError 和 Unable to allocate array with shape

Ther_T

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
MemoryError的处理方式

Bug：MemoryError: Unable to allocate 4.34 GiB for an array with shape (40442, 80, 60, 3) and data type float64记录几种查到的解决策略：1. 低精度保存数据一般计算上通过numpy得到的16位浮点数。float64占用的内存是float32的两倍，是float16的4倍，比如对于CIFAR10数据集，如果采用float64来表示，需要60000323238/1024**3=1.4G60000∗32
复制链接

扫一扫