【深度学习】为什么深度学习需要大内存？_深度学习对内存占用高吗-CSDN博客

本文探讨了深度学习模型在训练过程中面临的内存挑战，特别是在使用大型神经网络时。文章详细分析了内存消耗的主要来源，并介绍了几种有效的内存优化技术，包括in-place运算和计算换存储等方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文主要译介自Graphcore在2017年1月的这篇博客: Why is so much memory needed for deep neural networks。介绍了深度学习中内存的开销，以及降低内存需求的几种解决方案。

为便于阅读，本文修改了原文分段，并添加更详细的计算说明。

深度学习的内存消耗在哪里？

回顾：简单例子

考虑一个单层线性网络，附带一个激活函数：
$h=w_1x+w_2$

$y = f (h)$

代价函数： $E=||y-\overline{y}||^2$

在训练时，每一个迭代要记录以下数据：

当前模型参数 $w_1,w_2$
前向运算各层响应： $x, h, y$

这样，可以在后向运算中用梯度下降更新参数：
$\Delta w_1=\eta\cdot \frac{\partial E}{\partial w_1}=\eta \cdot 2(y-\overline{y})\cdot f'(h) \cdot x$

$\Delta w_2=\eta\cdot \frac{\partial E}{\partial w_1}=\eta \cdot 2(y-\overline{y})\cdot f'(h)$

内存消耗的三方面

输入数据

很小，不做考量。

256256的彩色图像：25625631 byte= 192KB

模型参数

较大，和模型复杂度有关。

入门级的MNIST识别网络有6.6 million参数，使用32-bit浮点精度，占内存：6.6M * 32 bit = 25MB

50层的ResNet有26 million参数，占内存：26M * 32 bit = 99MB

当然，你可以设计精简的网络来处理很复杂的问题。

各层响应

较大，同样和模型复杂度有关。

50层的ResNet有16 million响应，占内存：16M*32bit = 64MB

响应和模型参数的数量并没有直接关系。卷积层可以有很大尺寸的响应，但只有很少的参数；激活层甚至可以没有参数。

– 这样看起来也不大啊？几百兆而已。
– 往下看。

batch的影响

为了有效利用GPU的SIMD机制，要把数据以mini-batch的形式输入网络。
如果要用32 bit的浮点数填满常见的1024 bit通路，需要32个样本同时计算。

在使用mini-batch时，模型参数依然只保存一份，但各层响应需要按mini-batch大小翻倍。

50层的ResNet，mini-batch=32，各层相应占内存：64MB*32 = 2GB

卷积计算的影响

设 $H\times W$ 的输入图像为 $X$ ， $K\times K$ 的卷积核为 $R$ ，符合我们直觉的卷积是这样计算的。

对每一个输出位置，计算小块对位乘法结果之和。
$\sum{X^s_{k,k}(h,w) \odot R}$

$h = 1 : H, w = 1 : W$
其中， $X^s_{k,k}(h,w)$ 表示输入图像中，以 $h, w$ 为中心，尺寸为 $K\times K$ 的子图像。

但是，这种零碎运算很慢。

在深度学习库中，一般会采用lowering的方式，把卷积计算转换成矩阵乘法。

首先，把输入图像分别平移不同距离，得到 $K^2$ 个 $H\times W$ 的位移图像，串接成 $H\times W \times K^2$ 的矩阵 $\overline{X}$ 。
之后，把 $K\times K$ 的卷积核按照同样顺序拉伸成 $K^2\times 1$ 的矩阵 $\overline{R}$
卷积结果通过一次矩阵乘法获得：
$Y=\overline{X}\cdot \overline{R}$