pytorch Tensor 4D和5D计算规则

最新推荐文章于 2024-03-10 11:41:54 发布

Artra_Soong

最新推荐文章于 2024-03-10 11:41:54 发布

阅读量660

点赞数 1

文章标签： pytorch 深度学习人工智能

本文链接：https://blog.csdn.net/qq_30230591/article/details/129992270

版权

4D 张量的乘法通常指的是卷积操作（convolution），在深度学习中被广泛应用于图像和语音处理等领域。下面以卷积操作为例，说明输入和输出张量的维度变化及乘法公式。

假设我们有一个形状为 $N, C_{in}, H_{in}, W_{in})$ 的输入张量 $X$ ，和一个形状为 $C_{out}, C_{in}, k_h, k_w)$ 的卷积核张量 $W$ ，其中：

$N$ 表示 batch size，即批处理的样本数量；
$C_{in}$ 表示输入张量的通道数，即每个样本的特征图数量；
$H_{in}$ 表示输入张量的高度，即每个特征图的高度；
$W_{in}$ 表示输入张量的宽度，即每个特征图的宽度；
$C_{out}$ 表示输出张量的通道数，即卷积核的个数，也是输出张量的特征图数量；
$k_h$ 表示卷积核的高度；
$k_w$ 表示卷积核的宽度。

卷积操作的公式如下：
在这里插入图片描述
其中 $\in [0, N)$ ， $c_{out} \in [0, C_{out})$ ， $h_{out} \in [0, H_{out})$ ， $w_{out} \in [0, W_{out})$ ， $H_{out} = H_{in} - K_h + 1$ ， $W_{out} = W_{in} - K_w + 1$ 。

公式的意义是，对于输出张量的每个元素 $n, c_{out}, h_{out}, w_{out})$ ，将卷积核 $W$ 按照 $c_{in}$ 维度与输入张量 $X$ 的对应特征图进行卷积运算，得到一个 $k_h \times k_w$ 大小的卷积结果，然后将这个卷积结果与其他特征图的卷积结果相加，最终得到输出张量 $Y$ 的一个元素。

卷积操作后，输出张量的形状为 $N, C_{out}, H_{out}, W_{out})$ ，其中：

$N$ 保持不变；
$C_{out}$ 等于卷积核的个数，即输出的特征图数量；
$H_{out}$ 等于输入特征图高度
$H_{in}$ 减去卷积核高度 $k_h$ 再加 1，即 $H_{out} = H_{in} - k_h + 1$ ；
$W_{out}$ 等于输入特征图宽度 $W_{in}$ 减去卷积核宽度 $k_w$ 再加 1，即 $W_{out} = W_{in} - k_w + 1$ 。

举个例子，假设有一个形状为 $(1, 3, 5, 5)$ 的输入张量 $X$ ，即 batch size 为 1，输入通道数为 3，每个特征图的高度和宽度均为 5。同时，我们有一个形状为 $(2, 3, 3, 3)$ 的卷积核张量 $W$ ，即输出通道数为 2，输入通道数为 3，卷积核的高度和宽度均为 3。

我们对 $X$ 进行卷积运算，得到形状为 $(1, 2, 3, 3)$ 的输出张量 $Y$ 。具体地，我们可以用 PyTorch 中的 torch.nn.functional.conv2d 函数来实现：

import torch.nn.functional as F

x = torch.randn(1, 3, 5, 5)  # 输入张量
w = torch.randn(2, 3, 3, 3)  # 卷积核张量
y = F.conv2d(x, w)  # 卷积运算，得到输出张量

在此示例中，输入张量 $X$ 的形状为 (1, 3, 5, 5)，卷积核张量 $W$ 的形状为 (2, 3, 3, 3)，则根据卷积公式，输出张量 $Y$ 的形状为 (1, 2, 3, 3)。

注意，在实际应用中，卷积操作通常会涉及到更多的参数和技巧，例如 padding、stride、dilation 等，以及不同的卷积层的组合和堆叠。此处只是介绍了基本的卷积操作和输入输出张量的维度变化。

5D Tensor 通常代表着包含多个样本的多通道 3D 图像或视频，例如形状为 $(B, C, D, H, W)$ 的张量，其中 $B$ 表示批量大小， $C$ 表示通道数， $D$ 表示深度， $H$ 表示高度， $W$ 表示宽度。对于 5D Tensor 的计算，可以类比于 4D Tensor，只是需要在其基础上再加一个维度。

例如，对于形状为 $B, C_{in}, D_{in}, H_{in}, W_{in})$ 的输入张量 $X$ 和形状为 $C_{out}, C_{in}, k_d, k_h, k_w)$ 的卷积核张量 $W$ ，其卷积运算的计算方式如下：

将 $X$ 和 $W$ 转换为 2D 的形式，其中 $X$ 的形状为 $\times D_{in} \times H_{in} \times W_{in}, C_{in})$ ， $W$ 的形状为 $(C_{out}, C_{in} \times k_d \times k_h \times k_w)$ ；
对 2D 的 $X$ 和 $W$ 进行矩阵相乘，得到形状为 $\times D_{out} \times H_{out} \times W_{out}, C_{out})$ 的输出张量 $Y$ ，其中 $D_{out} = D_{in} - k_d + 1$ ， $H_{out} = H_{in} - k_h + 1$ ， $W_{out} = W_{in} - k_w + 1$ ；
将 $Y$ 转换为 5D 的形式，即 $B, C_{out}, D_{out}, H_{out}, W_{out})$ 。

import torch

# 创建输入和卷积核的5D张量
batch_size = 2
in_channels = 3
out_channels = 4
input_size = (32, 32, 32)
kernel_size = (3, 3, 3)
# (2,3,32*32*32)
input_tensor = torch.randn(batch_size, in_channels, *input_size)
#(4,3,3*3*3)
kernel_tensor = torch.randn(out_channels, in_channels, *kernel_size)

# 执行卷积操作
output_tensor = torch.nn.functional.conv3d(input_tensor, kernel_tensor)
#(2,4,30*30*30)
print(output_tensor.shape)