pytorch nn.Linear的理解_pytorch线性层传参含义-CSDN博客

本文链接：https://blog.csdn.net/qq_36033058/article/details/106071804

本文深入解析深度学习中Linear层的数学表达式，通过详细解释单个样本的前向传播过程，阐述PyTorch中nn.Linear函数的工作原理。文章对比了矩阵表达与逐元素表达的区别，强调了batch训练中权重矩阵转置的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Linear层的理解

单个sample的Linear数学表达式
pytorch nn.Linear

单个sample的Linear数学表达式

上图是前向传播的一个简单示例图。首先说明下该图中各个数学符号的含义：
$X$ ：单个sample的向量表达；
$x_i$ ：输入sample向量的第 $i$ 维；
$W^{(l)}$ ： $Layer_{l-1}$ 到 $Layer_{l}$ 的前向传播权重矩阵；
$w_{ij}^{(l)}$ ：权重矩阵 $W^{(l)}$ 的元素， ${j}$ 表示 $Layer_{l-1}$ 中第 $j$ 个元素， $i$ 表示 $Layer_{l}$ 中第 $i$ 个元素， $w_{ij}$ 表示 $j$ 到 $i$ 的连接权重；
$Z^{(l)}$ ： $Layer_l$ 接受到的刺激信号向量；
$z_i^{(l)}$ ： $Layer_l$ 接受到的刺激信号向量中的第 $i$ 个值；
$A^{(l)}$ ： $Layer_l$ 的激活值向量；
$a_i^{(l)}$ ： $Layer_l$ 对应 $z_i^{(l)}$ 的激活值；
这里主要写一下Layer 1到Layer 2的前向传播数学表达式：
$z_1^{(2)}=w_{11}^{(2)}x_1+w_{12}^{(2)}x_2+w_{13}^{(2)}x_3 \\ z_2^{(2)}=w_{21}^{(2)}x_1+w_{22}^{(2)}x_2+w_{23}^{(2)}x_3 \\ z_3^{(2)}=w_{31}^{(2)}x_1+w_{32}^{(2)}x_2+w_{33}^{(2)}x_3$
在深度学习中，这样的表达式过于繁琐，通常使用矩阵来进行简洁的表达。上述表达式的矩阵表达为：
$\left[ \begin{matrix} z_1^{(2)} \\ z_2^{(2)} \\ z_3^{(2)} \end{matrix} \right]=\left[ \begin{matrix} w_{11}^{(2)} & w_{12}^{(2)} & w_{13}^{(2)} \\ w_{21}^{(2)} & w_{22}^{(2)} & w_{23}^{(2)} \\ w_{31}^{(2)} & w_{32}^{(2)} & w_{33}^{(2)} \end{matrix} \right]\left[ \begin{matrix} x_1 \\ x_2 \\ x_3 \end{matrix} \right]+\left[ \begin{matrix} b_1^{(2)} \\ b_2^{(2)} \\ b_3^{(3)} \end{matrix} \right] \tag{1}$
$Z^{(l)}=W^{(l)}X+B^{(l)}\tag{2}$
公式(2)中的 $Z^{(l)}$ 和 $X$ 都是列向量。

pytorch nn.Linear

torch.nn.Linear(in_features, out_features, bias=True)
官方文档的注释：
Applies a linear transformation to the incoming data： $y=xA^T+b$
对比公式(2)，可以发现 $A$ 其实就是 $W$ ，但是两者的表达还是有些不同的。
个人理解：公式(2)是针对单个sample的数学推导，其中单个sample是以列向量的形式表达的，但是在神经网络的训练中一般是使用batch train，这个时候就要使用sample matrix了。 $x$ 表示sample matrix，矩阵的每一行表示一个sample，即 $x$ 的size为 $batchsize*in\_features$ ， $in\_features$ 表示上一层的输出维度。 $y$ 的size为 $batch\_size*out\_features$ ， $out\_features$ 表示该层的输出维度，即该层的隐藏神经元个数。单个sample时，我们用列向量来表示sample，但是在sample matrix时，我们有行向量表示一个sample，所以矩阵 $A$ 需要转置。
$batch\_size*in\_features*in\_features*out\_features=batch\_size*out\_features$
矩阵 $A$ 的维度是 $out\_features*in\_features$ ，这和 $W$ 的形式是相同的。
之所以要转置，估计是因为batch train的原因。
在这里插入图片描述
关于shape的理解：
对于二维sample matrix， $*$ 表示batch_size，三维sample matrix，N可以理解为channel；不管有多少维，理解的时候从最后一维开始理解，最后一维表示一个样本的维度，前一维表示多少个样本，最后两维表示构成一个sample matrix；再往前一维表示有多少个这样的sample matrix；更多的维度按照这样的方式去理解就比较容易了。
#preference:
1、https://zhuanlan.zhihu.com/p/71892752
2、https://pytorch.org/docs/stable/nn.html#linear-layers