[PyTroch系列-15]:PyTorch基础 - 张量的操作 - 拆分与分割

作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing

本文网址:https://blog.csdn.net/HiWangWenBing/article/details/119489896


目录

 第1章 Tensor运算概述

1.1 概述

1.3 张量的操作与变换

1.4 环境准备

1.5 张量的操作 - 拆分与分割

第2章 平均分割:chunk()

2.1 工作原理

2.2 函数描述

2.3 代码示例

第3章 任意分割:split()

3.1 工作原理

3.2 函数描述

3.3 代码示例


第1章 Tensor运算概述

1.1 概述

PyTorch提供了大量的张量运算,基本上可以对标Numpy多维数组的运算,以支持对张量的各种复杂的运算。

这些操作运算中大多是对数组中每个元素执行相同的函数运算,并获得每个元素函数运算的结果序列,这些序列生成一个新的同维度的数组。

https://www.runoob.com/numpy/numpy-linear-algebra.html

不同维度张量的维度方向标识

  • 随着张量维度的增加,张量维度的标识dim的范围也在扩宽
  • 在张量维度扩展的过程中,维度标识值(dim=n)的含义也在发生变化。
  • dim=0总是指向张量的多维数组存储的最外层:[ ] [ ] [ ], 这与物理存储的标识是相反的。

1.2 运算分类

(1)算术运算:加、减、系数乘、系数除

(2)函数运算:sin,cos

(3)取整运算:上取整、下取整

(4)统计运算:最大值、最小值、均值

(5)比较运算:大于,等于,小于、排序

(6)线性代数运算:矩阵、点乘、叉乘

1.3 张量的操作与变换

(1)变换内容: 变换张量元素的值。

(1)变换长度:变换张量的某个方向的长度(即向量的维度或长度),长度可增加,可减少。

(3)变换维度:变化张量的维度,维度可以增加,可减少。

1.4 环境准备

import numpy as np
import torch
 
print("Hello World")
print(torch.__version__)
print(torch.cuda.is_available())

1.5 张量的操作 - 拆分与分割

张量的切分有两种主要的基本策略:

  • 在某个维度方向,平均分割:chunk()
  • 在某个维度方向,指定分割:split()

第2章 平均分割:chunk()

2.1 工作原理

张量的任意一个dim方向,都是有长度的,这个长度就是该方向上向量的维度或长度。

平均分割是把这个维度的长度,分割成几个等分的部分。

当张量dim方向的长度不能被整除时,切分后的最后一个张量块的大小会少一些。

2.2 函数描述

功能:在不改变张量的维度的情况下,在某个dim方向上,把一个长度较大的张量,分割成多个长度相同的张量。

原型:chunk(input, chunks,dim)

输入参数:

input: 输入张量

chunks:均匀分割的张量个数

dim:切分的方向

2.3 代码示例

#均匀切分
print("源张量")
a = torch.Tensor([[0,2,4,6,8,10,12,14,16,18],[1,3,5,7,9,11,13,15,17,19]])
print(a)

print("\ndim=0切分后张量")
c = torch.chunk(a,chunks=2,dim=0)
print(c[0])
print(c[1])

print("\ndim=1切分后张量")
c = torch.chunk(a,chunks=3,dim=1)
print(c[0])
print(c[1])
print(c[2])

输出:

源张量
tensor([[ 0.,  2.,  4.,  6.,  8., 10., 12., 14., 16., 18.],
        [ 1.,  3.,  5.,  7.,  9., 11., 13., 15., 17., 19.]])

dim=0切分后张量
tensor([[ 0.,  2.,  4.,  6.,  8., 10., 12., 14., 16., 18.]])
tensor([[ 1.,  3.,  5.,  7.,  9., 11., 13., 15., 17., 19.]])

dim=1切分后张量
tensor([[0., 2., 4., 6.],
        [1., 3., 5., 7.]])
tensor([[ 8., 10., 12., 14.],
        [ 9., 11., 13., 15.]])
tensor([[16., 18.],
        [17., 19.]])

备注:

dim=1的方向,长度为10,三等分的结果为:4+4+2,不是3+3+4.

这是这个函数的算法所决定的,它要最后一个张量的长度不能大于其他张量的长度。

第3章 任意分割:split()

3.1 工作原理

张量的任意一个dim方向,都是有长度的,这个长度就是该方向上向量的维度或长度。

任意分割就是指定每个分块的长度,并通过[1,3,5]的形式,指明每个分块的长度和顺序。

3.2 函数描述

功能:在不改变张量的维度的情况下,在某个dim方向上,把一个长度较大的张量,按照指定的长度,依次分割成多个张量。

原型:split(input, split_size_or_sections, dim)

输入参数:

input: 输入张量

split_size_or_sections

dim:切分的方向

3.3 代码示例

#任意切分
print("源张量")
a = torch.Tensor([[0,2,4,6,8,10,12,14,16,18],[1,3,5,7,9,11,13,15,17,19]])
print(a)

print("\ndim=0切分后张量")
c = torch.split(a,split_size_or_sections=[1,1],dim=0)
print(c[0])
print(c[1])

print("\ndim=1切分后张量")
c = torch.split(a,[2,4,4],dim=1)
print(c[0])
print(c[1])
print(c[2])

输出:

源张量
tensor([[ 0.,  2.,  4.,  6.,  8., 10., 12., 14., 16., 18.],
        [ 1.,  3.,  5.,  7.,  9., 11., 13., 15., 17., 19.]])

dim=0切分后张量
tensor([[ 0.,  2.,  4.,  6.,  8., 10., 12., 14., 16., 18.]])
tensor([[ 1.,  3.,  5.,  7.,  9., 11., 13., 15., 17., 19.]])

dim=1切分后张量
tensor([[0., 2.],
        [1., 3.]])
tensor([[ 4.,  6.,  8., 10.],
        [ 5.,  7.,  9., 11.]])
tensor([[12., 14., 16., 18.],
        [13., 15., 17., 19.]])

备注:

dim=0时,长度为0,因此只能分割成[1,1]两个块。

dim=1是,长度为10,这里的分割成3个块,分割方法是:[2,4,4]。 2+4+4=10.

作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing

本文网址:

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 以下是一个使用PyTorch实现self-attention的示例代码: ```python import torch import torch.nn as nn class SelfAttention(nn.Module): def __init__(self, embed_size, heads): super(SelfAttention, self).__init__() self.embed_size = embed_size self.heads = heads self.head_dim = embed_size // heads assert (self.head_dim * heads == embed_size), "Embed size needs to be divisible by heads" self.values = nn.Linear(self.head_dim, self.head_dim, bias=False) self.keys = nn.Linear(self.head_dim, self.head_dim, bias=False) self.queries = nn.Linear(self.head_dim, self.head_dim, bias=False) self.fc_out = nn.Linear(heads * self.head_dim, embed_size) def forward(self, values, keys, query, mask): # Get number of training examples N = query.shape[0] # Get sequence length query_len, key_len, value_len = query.shape[1], keys.shape[1], values.shape[1] # Split embedding into self.heads pieces query = query.reshape(N, query_len, self.heads, self.head_dim) keys = keys.reshape(N, key_len, self.heads, self.head_dim) values = values.reshape(N, value_len, self.heads, self.head_dim) # Transpose to get dimensions (N, self.heads, query_len, self.head_dim) query = query.permute(0, 2, 1, 3) keys = keys.permute(0, 2, 1, 3) values = values.permute(0, 2, 1, 3) energy = torch.einsum("nqhd,nkhd->nhqk", [query, keys]) if mask is not None: energy = energy.masked_fill(mask == 0, float("-1e20")) attention = torch.softmax(energy / (self.embed_size ** (1/2)), dim=3) out = torch.einsum("nhql,nlhd->nqhd", [attention, values]).reshape(N, query_len, self.heads * self.head_dim) out = self.fc_out(out) return out ``` 这是一个实现self-attention的自定义PyTorch模块。模块的构造函数接受两个参数:embed_size和heads。embed_size是词嵌入的维度,heads是要分成多少个子头(也就是要进行多少次并行计算)。 forward函数接受四个参数:values、keys、query和mask。values、keys和query都是形状为(batch_size,sequence_length,embed_size)的张量,表示输入的词嵌入向量。mask是一个形状为(batch_size,sequence_length)的张量,用于掩盖一些词,避免它们对计算产生影响。 该模块将输入张量按子头分组,并使用nn.Linear层来获取值、键和查询。然后使用torch.einsum函数计算能量(又称为得分),并使用softmax函数计算注意力分布。最后,使用torch.einsum函数将值与注意力相乘,得到输出张量。最后,通过一个线性层这个实现的SelfAttention模块使用的是Multi-head Self-Attention的方法,将输入的embed_size维度按照子头数heads进行拆分,对每个子头进行独立的注意力计算,最后将所有子头的注意力计算结果进行拼接并使用一个全连接层进行最终输出。 具体来说,该模块将输入的query、keys、values张量先reshape成(batch_size,sequence_length,heads,head_dim)的形状,其中head_dim是embed_size除以heads得到的整数。然后,通过nn.Linear层将query、keys、values分别映射到形状为(batch_size,sequence_length,heads,head_dim)的张量,这里使用的是线性映射,所以没有使用激活函数。 接着,通过torch.einsum函数计算得分(能量),这里使用了 "nqhd,nkhd->nhqk" 的形式,其中n表示batch_size,q、k、v、h、d分别表示query_len、key_len、value_len、heads、head_dim的缩写。这个公式的意思是计算query和key之间的相似度,即得分,得到一个形状为(batch_size,heads,query_len,key_len)的张量。 如果提供了掩码mask,则通过masked_fill方法将mask中值为0的位置填充为负无穷,避免这些位置的词对得分产生影响。接着,通过softmax函数计算注意力分布,得到一个形状为(batch_size,heads,query_len,key_len)的张量。 最后,通过torch.einsum函数将values与注意力相乘得到输出张量,这里使用了 "nhql,nlhd->nqhd" 的形式,将注意力分布与values相乘,得到一个形状为(batch_size,heads,query_len,head_dim)的张量,然后reshape成(batch_size,query_len,heads*head_dim)的形状,即拼接所有子头的结果。最后通过一个全连接层进行线性变换,得到形状为(batch_size,query_len,embed_size)的输出张量。 需要注意的是,该实现没有使用任何层归一化或残差连接等技巧,如果需要在模型中使用Self-Attention,建议使用更完整的Self-Attention模块,例如Transformer。 ### 回答2: self-attention是一种用于自然语言处理任务的技术,其可以在输入序列中找到关键词并将其与其他词汇建立联系,从而增强模型对输入信息的理解。在pytorch中,可以通过以下代码实现self-attention: 首先,定义一个SelfAttention类: ``` import torch import torch.nn as nn class SelfAttention(nn.Module): def __init__(self, hidden_size): super(SelfAttention, self).__init__() self.hidden_size = hidden_size self.attention_weights = nn.Linear(hidden_size, hidden_size) self.softmax = nn.Softmax(dim=1) def forward(self, inputs): attention_scores = self.attention_weights(inputs) attention_scores = torch.tanh(attention_scores) attention_weights = self.softmax(attention_scores) context_vector = attention_weights * inputs context_vector = context_vector.sum(dim=1, keepdim=True) return context_vector, attention_weights ``` 这里使用了Linear模块来创建注意力权重,并使用Softmax激活函数将权重标准化至0到1之间。然后,使用tanh函数将注意力分数缩放至[-1,1],以便更好地捕捉关键字之间的关系。最后,将输入序列和注意力权重相乘以获得上下文向量,该向量包含输入序列中最重要的信息。 接下来,我们可以使用SelfAttention模块来构建一个LSTM模型,示例如下: ``` class LSTMModel(nn.Module): def __init__(self, input_size, hidden_size, num_layers, output_size, dropout=0.2): super(LSTMModel, self).__init__() self.hidden_size = hidden_size self.num_layers = num_layers self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True, dropout=dropout, bidirectional=True) self.attention = SelfAttention(hidden_size) self.fc = nn.Linear(hidden_size*2, output_size) def forward(self, inputs): lstm_out, _ = self.lstm(inputs) context, attention_weights = self.attention(lstm_out) output = self.fc(context.squeeze()) return output, attention_weights ``` 在该示例中,先使用nn.LSTM模块来定义LSTM层,然后将其传输给SelfAttention模块获取上下文向量而不是使用LSTM最终时间步长的隐藏状态。最后,将上下文向量传递给全连接层以获得最终的输出结果。使用SelfAttention模块可以提高模型在自然语言处理任务中的性能,尤其适用于多项任务和较长的文本序列。 ### 回答3: self-attention是一种注意力机制,用于将输入序列中不同位置的信息加权,以便在模型中动态地捕捉相关信息。PyTorch的self-attention模块用于实现这种机制,并且可以在多个应用中使用。 在PyTorch中,self-attention的实现方式是使用torch.nn.MultiheadAttention模块。该模块定义了一个多头注意力机制,用于处理输入序列中的不同位置之间的关系。它采用这些位置之间的相似性来构建加权向量表示输入序列,并将这些向量合并成单个向量。在实际应用中,该模块的输入可以是一个张量序列,输出则是一个与输入序列形状相同的张量序列。使用该模块的代码如下: ```python import torch.nn as nn import torch class SelfAttentionLayer(nn.Module): def __init__(self, input_size, heads): super(SelfAttentionLayer, self).__init__() self.input_size = input_size self.heads = heads assert input_size % heads == 0 self.head_dim = input_size // heads self.query = nn.Linear(self.head_dim, self.head_dim, bias=False) self.key = nn.Linear(self.head_dim, self.head_dim, bias=False) self.value = nn.Linear(self.head_dim, self.head_dim, bias=False) self.fc = nn.Linear(heads * self.head_dim, input_size) def forward(self, x): # Get batch size and sequence length properly batch_size, seq_len, input_size = x.size() # Split input into heads and process x = x.view(batch_size * seq_len, self.heads, self.head_dim) # Perform the linear transformations Q = self.query(x) K = self.key(x) V = self.value(x) # Perform multi-head attention Q = Q.transpose(1, 2).contiguous().view(batch_size * self.heads, seq_len, self.head_dim) K = K.transpose(1, 2).contiguous().view(batch_size * self.heads, seq_len, self.head_dim) V = V.transpose(1, 2).contiguous().view(batch_size * self.heads, seq_len, self.head_dim) dot = torch.bmm(Q, K.transpose(1, 2)) dot = dot / torch.sqrt(torch.tensor(self.input_size).float()) softmax = nn.Softmax(dim=2) attention = softmax(dot) out = torch.bmm(attention, V) # Reshape output to the input size out = out.view(batch_size, seq_len, self.heads * self.head_dim) # Perform the final linear transformation out = self.fc(out) return out ``` 该代码使用了一个自注意力层(SelfAttentionLayer),以实现动态地编码输入序列信息的功能。该层将输入张量输入到一个linear层,然后将其拆分成多个头向量。然后,该模块对每个头向量执行线性变换并以此计算注意力分数。使用softmax函数对注意力分数进行归一化,并将它们作为权重,加权地合并输入向量。最后,该模块将这些加权向量传递到另一个线性层,以产生模块的输出张量。 总的来说,使用self-attention的模型可以更好地处理输入序列,适用于各种神经网络应用领域,如自然语言处理、图像处理和语音识别等。使用PyTorch实现可让开发者更方便地利用这种技术,从而更快速地构建出复杂的模型。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文火冰糖的硅基工坊

你的鼓励是我前进的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值