pytorch学习(十五)二维卷积和转置卷积

卷积爆喊了stride步长,padding是否加边,groups是否完全计算,kernel_size卷积核的大小,等尺寸,不同的尺寸组合,可以让图像在卷积后保持原来的形状,也可以让图像的通道数增加。

话有一个是转置卷积,当kernel_size核stride设置为一致的时候,可以扩大倍数的升采样。

具体参数的意义可以跟着代码来看,其中conv2d在本博客中分析的相对详细,转置卷积的padding没有测试。

具体的代码如下:

import torch
x = torch.randn(3,1,5,4)
print(x)

#卷积核的尺寸是多大呢?1通道变成了4通道,那么卷积核就是[1,2,3]就是1通道2行3列,但是有4个卷积核,,那么就是(4,1,2,3)的尺寸
#如果输入的是彩色图像呢,通道是3,输入4通道,着要怎么卷积呢? 哈哈,那就是卷积核变成了(3,2,3),并且有4个,那么就是(4,3,2,3)的尺寸
#用print(conv.weight.data.size())来证明

#1 尺寸分析
#卷积核尺寸是(2,3)也就是两行三列,去卷(5,4)5行4列,得到就是4行2列
#输入通道Conv2d(1, 是1对应的是(3,1,5,4)的通道1,也就是数据按照BCHW(batch,channels,height,width)排列的时候的channels值
#也就是说输入的是黑白的图像,而不是彩色的图像
#Conv2d(1,4,(2,3))中的4表示输出通道是4,表示的是输出的channels=4,所以卷积核卷一个(1,5,4)会得到一个(4,4,2)
#B= 3,所以最后得到的尺寸就是(3,4,4,2)
conv = torch.nn.Conv2d(1,4,(2,3))
res = conv(x)
print(res)
print(res.shape)
print(conv.weight.data.size())   #torch.Size([4, 1, 2, 3])

#2.加入padding的尺寸分析
#第一个案例中的5行4列变成了4行2列,就是因为padding没有的结果,如果padding在列方向上是1,则列保持原尺寸
conv = torch.nn.Conv2d(1,4,kernel_size = (2,3),padding=(0,1))
padding_res = conv(x)
print(padding_res)
print(padding_res.shape)

#3.加入stride的尺寸分析
#第一个案例中的5行4列变成了4行2列,stride=2的时候,则列方向只能走一步,走第二步就超界了因此列为1,行可以走2步
#因此形成的单通道尺寸就是【2,1】,加上4个通道就是[4,2,1],加上B就是【3,4,2,1】
conv = torch.nn.Conv2d(1,4,kernel_size = (2,3),stride=2)
stride_res = conv(x)
print(stride_res)
print(stride_res.shape)


#4.dilation空洞卷积,可以增加感受野, 在行方向上dilation是2则表示卷积核变成了(3,3),应用于(5,4)上,则变成了(3,2)
conv = torch.nn.Conv2d(1,4,kernel_size = (2,3),stride=1,dilation=(2,1))
dilation_res = conv(x)
print(dilation_res)
print(dilation_res.shape)


#bias 为1行4列 ,可以看到只是卷积之后加的一个数值
print(conv.bias.data)  #tensor([-1.7308e-01, -1.6001e-04, -2.6300e-01,  2.8908e-01])

#groups为控制卷积的形状,当groups=2的时候,其中一个6/2 = 3有一个卷积核来卷它,因此卷积核减倍,就是weights就是[4,3,2,3]
x = torch.randn(3,6,5,4)
conv = torch.nn.Conv2d(6,4,kernel_size = (2,3),stride=1,dilation=(2,1),groups=2)
dilation_res = conv(x)
print(dilation_res.shape)
print(conv.weight.data.size())

#转置卷积,上采样的时候会用到 kernel_size=2,stride=2刚好图像扩大一倍,
#详细的看参考 https://blog.csdn.net/m0_49963403/article/details/138535839
x = torch.randn(3,6,5,4)
conv = torch.nn.ConvTranspose2d(6,6,kernel_size=2,stride=2)
x_ConvTranspose2d = conv(x)
print("x_ConvTranspose2d:\n",x_ConvTranspose2d.shape)
print(conv.weight.data.size())



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是使用PyTorch构建3层1D CNN LSTM Attention网络模型的代码示例: ```python import torch.nn as nn import torch.nn.functional as F class CNN_LSTM_Attention(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim, num_layers, dropout_prob, kernel_size, stride): super(CNN_LSTM_Attention, self).__init__() self.input_dim = input_dim self.hidden_dim = hidden_dim self.output_dim = output_dim self.num_layers = num_layers self.dropout_prob = dropout_prob self.kernel_size = kernel_size self.stride = stride self.conv_layers = nn.ModuleList() self.conv_layers.append(nn.Conv1d(in_channels=input_dim, out_channels=hidden_dim, kernel_size=kernel_size, stride=stride)) self.conv_layers.append(nn.Conv1d(in_channels=hidden_dim, out_channels=hidden_dim, kernel_size=kernel_size, stride=stride)) self.conv_layers.append(nn.Conv1d(in_channels=hidden_dim, out_channels=hidden_dim, kernel_size=kernel_size, stride=stride)) self.lstm = nn.LSTM(hidden_dim, hidden_size=hidden_dim, num_layers=num_layers, bidirectional=True, batch_first=True, dropout=dropout_prob) self.attention_layer = nn.Linear(hidden_dim*2, 1, bias=False) self.output_layer = nn.Linear(hidden_dim*2, output_dim) def forward(self, x): batch_size, seq_len, num_channels = x.size() x = x.permute(0, 2, 1) for conv_layer in self.conv_layers: x = conv_layer(x) x = F.relu(x) x = F.max_pool1d(x, kernel_size=self.kernel_size, stride=self.stride) x = x.permute(0, 2, 1) # LSTM layer h_0 = torch.zeros(self.num_layers*2, batch_size, self.hidden_dim).to(device) c_0 = torch.zeros(self.num_layers*2, batch_size, self.hidden_dim).to(device) lstm_out, (h_n, c_n) = self.lstm(x, (h_0, c_0)) lstm_out = lstm_out.view(batch_size, seq_len, self.hidden_dim*2) # Attention layer attention_weights = F.softmax(self.attention_layer(lstm_out), dim=1) attention_weights = attention_weights.permute(0,2,1) attention_weights = F.dropout(attention_weights, p=self.dropout_prob, training=self.training) output = torch.bmm(attention_weights, lstm_out).squeeze() # Output layer output = self.output_layer(output) return output ``` 在上面的代码中,我们首先定义了类`CNN_LSTM_Attention`,它继承自PyTorch的`nn.Module`基类。该类的主要部分包括三层1D卷积层、一层双向LSTM层、一层Attention层和一层输出层。 在`__init__`函数中,我们定义了输入维度`input_dim`、隐藏维度`hidden_dim`、输出维度`output_dim`、层数`num_layers`、dropout概率`dropout_prob`、卷积核大小`kernel_size`和步长`stride`。我们使用`nn.ModuleList`来保存卷积层。 在`forward`函数中,我们首先对数据进行转置,以便将序列长度放在第二维,这将便于进行卷积操作。我们然后依次通过三层1D卷积层,每层都是一个卷积层,一个ReLU激活层和一个最大池化层。 接下来,我们将数据传递给双向LSTM层,这将返回一个输出张量和一个元组,其中包含LSTM层的最后一个状态和单元状态。我们将输出张量重塑为(batch_size, seq_len, hidden_dim*2)的形状。 在Attention层中,我们首先将LSTM层的输出传递给一个线性层,以产生注意力权重。将注意力权重限制为0到1之间,以便它们可以被解释为加权和。我们随机丢弃注意力权重中的一部分,以减少过拟合,然后将它们与LSTM层的输出相乘,以得到加权和。最后,我们将加权和传递给输出层来生成最终的预测。 通过使用此三层1D CNN LSTM Attention网络,我们可以实现一种有效的序列到序列的建模方法,并应用于多种语音识别、自然语言处理、视频分析等场景中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值