Pytorch学习笔记(2): 一维卷积, RNN, LSTM详解

最新推荐文章于 2024-03-18 00:35:41 发布

VIP文章变量命名好难啊

最新推荐文章于 2024-03-18 00:35:41 发布

阅读量8.9k

点赞数 6

分类专栏：深度学习 Pytorch 文章标签： Conv1d RNN LSTM Pytorch

本文链接：https://blog.csdn.net/alen_1996/article/details/92833176

版权

一维卷积

torch.nn.Conv1d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode=‘zeros’)

这个函数用来对输入张量做一维卷积

in_channel和out_channel是卷积核个数
kernel_size是卷积核的大小
stride是卷积核移动步长, padding是否对输入张量补0

现在我有一个音频的梅尔频谱数据输入,一个batch为十张频谱, 一张频谱大小为129帧, 频率幅度为128,这个张量表示为(10, 128, 129),

import torch.nn as nn
import torch

input = torch.randn(10, 128, 129)
m = nn.Conv1d(128, 128, kernel_size=4, padding=2)
out = m(input)
print(out.size()) #(10, 128, 130)

可以看出来上面这个函数只在频谱的时域上进行一维卷积,卷积核大小为4帧,在频域上没有卷积.为什么输出是130,反而多了一帧呢?

这是因为这个一维卷积函数

Input(batch_size, Channel_input, length_input)
Output(batch_size, Channel_output, length_output)

$L_{out}=\lfloor\frac{L_{in}+2\times padding-dilation\times(kernel\_size-1)-1}{stride}+1\rfloor=\frac{129+2\times2-1\times(4-1)-1}1+1=130$

RNN

结构
在这里插入图片描述

函数

torch.nn.RNN(*args, **kwargs)

这个函数对输入的的sequence施加一个带tanh或者Relu的RNN.对输入的sequence每一个元素,每一层都施加如下计算:

$h_t=tanh(W_{hi}xt+b_{hi}+W_{hh}h_{t-1}+b_{hh})$

最低0.47元/天解锁文章

变量命名好难啊

关注

6
点赞
踩
72

收藏

觉得还不错? 一键收藏
1
评论
Pytorch学习笔记(2): 一维卷积, RNN, LSTM详解

一维卷积torch.nn.Conv1d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode=‘zeros’)这个函数用来对输入张量做一维卷积in_channel和out_channel是卷积核个数kernel_size是卷...
复制链接

扫一扫