张量的含义 当使用深度CNN时,我们大部分使用的张量维度是(N,C H,W),其中字母代表以下内容:N:批量大小C:通道数H:身高W:宽度您可以看到这种格式面向 2D 图像处理,因为它闻起来非常特定于图像的特征。B:批量大小(与CNN相同)T:时间维度或序列长度。此维度有时也称为 L。在视觉变压器的情况下,每个图像块对应于这个维度。如果我们有 16 个图像补丁,那么 T 维度的值将为 16C:通道或嵌入大小维度。此维度有时也称为 E。