torch.bmm()函数解读

本文详细解析了PyTorch中torch.bmm函数的使用方法,该函数用于计算两个三维张量的批量矩阵乘法。通过示例展示了如何进行正确的维度匹配,并避免常见的运行错误。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

函数作用
计算两个tensor的矩阵乘法,torch.bmm(a,b),tensor a 的size为(b,h,w),tensor b的size为(b,w,m) 也就是说两个tensor的第一维是相等的,然后第一个数组的第三维和第二个数组的第二维度要求一样,对于剩下的则不做要求,输出维度 (b,h,m)
代码示例

>>> c=torch.randn((2,5))
>>> print(c)
tensor([[ 1.0559, -0.3533,  0.5194,  0.9526, -0.2483],
        [-0.1293,  0.4809, -0.5268, -0.3673,  0.0666]])
>>> d=torch.reshape(c,(5,2))
>>> print(d)
tensor([[ 1.0559, -0.3533],
        [ 0.5194,  0.9526],
        [-0.2483, -0.1293],
        [ 0.4809, -0.5268],
        [-0.3673,  0.0666]])
>>> e=torch.bmm(c,d)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
RuntimeError: Dimension out of range (expected to be in range of [-2, 1], but got 2)

当tensor维度为2时会报错!

>>> ccc=torch.randn((1,2,2,5))
>>> ddd=torch.randn((1,2,5,2))
>>> e=torch.bmm(ccc,ddd)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
RuntimeError: invalid argument 1: expected 3D tensor, got 4D at /opt/conda/conda-bld/pytorch_1535490206202/work/aten/src/TH/generic/THTensorMath.cpp:2304

维度为4时也会报错!

>>> cc=torch.randn((2,2,5))
>>>print(cc)
tensor([[[ 1.4873, -0.7482, -0.6734, -0.9682,  1.2869],
         [ 0.0550, -0.4461, -0.1102, -0.0797, -0.8349]],
         [[-0.6872,  1.1920, -0.9732,  0.4580,  0.7901],
         [ 0.3035,  0.2022,  0.8815,  0.9982, -1.1892]]])
>>>dd=torch.reshape(cc,(2,5,2))
>>> print(dd)
tensor([[[ 1.4873, -0.7482],
         [-0.6734, -0.9682],
         [ 1.2869,  0.0550],
         [-0.4461, -0.1102],
         [-0.0797, -0.8349]],
         [[-0.6872,  1.1920],
         [-0.9732,  0.4580],
         [ 0.7901,  0.3035],
         [ 0.2022,  0.8815],
         [ 0.9982, -1.1892]]])
>>>e=torch.bmm(cc,dd)
>>> print(e)
tensor([[[ 2.1787, -1.3931],
         [ 0.3425,  1.0906]],
         [[-0.5754, -1.1045],
         [-0.6941,  3.0161]]])
 >>> e.size()
torch.Size([2, 2, 2])


         

正确!

Transformer是一种基于自注意力机制的神经网络模型,广泛应用于自然语言处理任务中,如机器翻译、文本生成等。下面是Transformer的代码解读: 首先,我们需要导入必要的库和模块: ```python import torch import torch.nn as nn import torch.nn.functional as F ``` 接着,我们定义了一个叫做PositionalEncoding的类,用于对输入的序列进行位置编码。位置编码的目的是为了让模型能够感知输入序列中每个元素的位置信息,从而更好地处理序列中的长距离依赖关系。 ```python class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout=0.1, max_len=5000): super(PositionalEncoding, self).__init__() self.dropout = nn.Dropout(p=dropout) pe = torch.zeros(max_len, d_model) position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1) div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model)) pe[:, 0::2] = torch.sin(position * div_term) pe[:, 1::2] = torch.cos(position * div_term) pe = pe.unsqueeze(0).transpose(0, 1) self.register_buffer('pe', pe) def forward(self, x): x = x + self.pe[:x.size(0), :] return self.dropout(x) ``` 在这个类中,我们首先定义了一个构造函数,其中d_model表示输入序列的维度,dropout表示dropout的概率,max_len表示输入序列的最大长度。在构造函数中,我们首先调用了父类的构造函数,然后定义了一个dropout层。 接着,我们创建了一个max_len x d_model的矩阵pe,并对其进行位置编码。具体来说,我们首先创建了一个长度为max_len的位置向量position,然后对每个位置向量应用一组不同的正弦和余弦函数,得到一个d_model维的位置编码向量。最后,我们将所有位置编码向量拼接成一个矩阵,并将其转置,以便与输入序列进行相加。 在forward函数中,我们将输入序列x与位置编码矩阵相加,并对结果进行dropout操作。 接下来,我们定义了一个叫做MultiHeadAttention的类,用于实现多头注意力机制。多头注意力机制是指将输入序列分别映射到多个不同的子空间中,并在每个子空间中计算注意力分数,最后将所有子空间的注意力分数加权求和得到最终的输出。 ```python class MultiHeadAttention(nn.Module): def __init__(self, d_model, nhead, dropout=0.1): super(MultiHeadAttention, self).__init__() self.nhead = nhead self.d_model = d_model self.head_dim = d_model // nhead self.qkv_proj = nn.Linear(d_model, 3 * d_model) self.out_proj = nn.Linear(d_model, d_model) self.dropout = nn.Dropout(p=dropout) def forward(self, query, key, value, attn_mask=None): batch_size = query.size(0) qkv = self.qkv_proj(query).chunk(3, dim=-1) q, k, v = qkv[0], qkv[1], qkv[2] q = q.view(batch_size * self.nhead, -1, self.head_dim).transpose(0, 1) k = k.view(batch_size * self.nhead, -1, self.head_dim).transpose(0, 1) v = v.view(batch_size * self.nhead, -1, self.head_dim).transpose(0, 1) attn_scores = torch.bmm(q, k.transpose(1, 2)) attn_scores = attn_scores / math.sqrt(self.head_dim) if attn_mask is not None: attn_scores = attn_scores.masked_fill(attn_mask == 0, -1e9) attn_probs = F.softmax(attn_scores, dim=-1) attn_probs = self.dropout(attn_probs) attn_output = torch.bmm(attn_probs, v) attn_output = attn_output.transpose(0, 1).contiguous().view(batch_size, -1, self.d_model) attn_output = self.out_proj(attn_output) attn_output = self.dropout(attn_output) return attn_output ``` 在这个类中,我们首先定义了一个构造函数,其中d_model表示输入序列的维度,nhead表示头的数量,dropout表示dropout的概率。在构造函数中,我们首先调用了父类的构造函数,然后定义了一个线性层qkv_proj,用于将输入序列映射到三个不同的子空间中。接着,我们定义了一个线性层out_proj,用于将多头注意力机制的输出映射回原始的输入维度。最后,我们定义了一个dropout层。 在forward函数中,我们首先获取输入序列的batch_size,并将输入序列通过线性层qkv_proj映射到三个不同的子空间中。然后,我们将每个子空间的向量分别重塑为(batch_size * nhead, seq_len, head_dim)的形状,并将其转置,以便进行矩阵乘法。接着,我们计算每个位置之间的注意力分数,并对其进行缩放。如果存在attn_mask,则将其应用于注意力分数。然后,我们对注意力分数进行softmax操作,并对结果进行dropout。接着,我们将注意力分数与value矩阵相乘,并将结果重塑为(batch_size, seq_len, d_model)的形状。最后,我们将输出通过线性层out_proj映射回原始的输入维度,并对结果进行dropout。 最后,我们定义了一个叫做TransformerEncoderLayer的类,用于实现Transformer的编码器层。编码器层由两个子层组成:多头自注意力机制和前馈神经网络。 ```python class TransformerEncoderLayer(nn.Module): def __init__(self, d_model, nhead, dim_feedforward=2048, dropout=0.1): super(TransformerEncoderLayer, self).__init__() self.self_attn = MultiHeadAttention(d_model, nhead, dropout=dropout) self.linear1 = nn.Linear(d_model, dim_feedforward) self.dropout = nn.Dropout(p=dropout) self.linear2 = nn.Linear(dim_feedforward, d_model) self.norm1 = nn.LayerNorm(d_model) self.norm2 = nn.LayerNorm(d_model) def forward(self, src, src_mask=None): src2 = self.self_attn(src, src, src, attn_mask=src_mask) src = src + self.dropout(src2) src = self.norm1(src) src2 = self.linear2(self.dropout(F.relu(self.linear1(src)))) src = src + self.dropout(src2) src = self.norm2(src) return src ``` 在这个类中,我们首先定义了一个构造函数,其中d_model表示输入序列的维度,nhead表示头的数量,dim_feedforward表示前馈神经网络的隐藏层维度,dropout表示dropout的概率。在构造函数中,我们定义了一个多头自注意力机制self_attn,一个线性层linear1,一个dropout层,一个线性层linear2,以及两个LayerNorm层。 在forward函数中,我们首先使用多头自注意力机制self_attn对输入序列进行编码,并将结果与原始输入序列相加。然后,我们对结果进行归一化,并通过一个前馈神经网络进行非线性变换。最后,我们再次将结果与原始输入序列相加,并对结果进行归一化。
评论 32
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值