AUTOVC 代码解析 —— model_bl.py
简介
本项目一个基于 AUTOVC 模型的语音转换项目,它是使用 PyTorch 实现的(项目地址)。
AUTOVC 遵循自动编码器框架,只对自动编码器损耗进行训练,但它引入了精心调整的降维和时间下采样来约束信息流,这个简单的方案带来了显著的性能提高。(详情请参阅 AUTOVC 的详细介绍)。
由于 AUTOVC 项目较大,代码较多。为了方便学习与整理,将按照工程文件的结构依次介绍。
本文将介绍项目中的 model_bl.py 文件:设计了一个说话人嵌入网络模型。
类解析
D_VECTOR
该类的意义为:d 向量说话人嵌入
D_VECTOR 继承 PyTorch 中网络模型的基类: torch.nn.Module 。
故需要重载两个函数:__init__ 与 forward 。
下面依次介绍 D_VECTOR 类的成员函数
__ init __
该函数的作用是: 创建 D_VECTOR 说话人嵌入网络模型需要的元素。
输入参数:
num_layers : LSTM 层复用的次数,默认为 3
dim_input : 输入数据的大小,默认为 40
dim_cell : LSTM 层隐藏单元的数量,默认为 256
dim_emb : 输出数据的大小,默认为 64
输出参数: 无
代码详解:
def __init__(self, num_layers=3, dim_input=40, dim_cell=256, dim_emb=64):
# 调用父类初始化函数,初始化模型基本参数
super(D_VECTOR, self).__init__()
# 创建成员函数 lstm :将一种多层长短期记忆(LSTM) RNN 应用于输入序列;
# 输入大小为 dim_input ,隐层单元数量为 dim_cell ,复用的层数为 num_layers , batch_first 为 True 。
self.lstm = nn.LSTM(input_size=dim_input, hidden_size=dim_cell,
num_layers=num_layers, batch_first=True)
# 创建成员函数 embedding :对输入的数据应用线性变换: y = xA^T + b
# 输入样本大小为 dim_cell ,输出样本大小为 dim_emb 。
self.embedding = nn.Linear(dim_cell, dim_emb)
forward
该函数的作用是: 定义了执行网络模型的计算过程
输入参数:
x : 输入网络的数据样本
输出参数:
embeds_normalized : 标准化的说话人嵌入
代码详解:
def forward(self, x):
# 重置参数数据指针,以便使用更快的代码路径
# 需注意的是,该设置仅当模块在 GPU 上并且 cuDNN 被启用时才有效
self.lstm.flatten_parameters()
# 输入的数据样本通过先前设定的成员函数 lstm 进行计算,得到 LSTM 层的输出 lstm_out 。
lstm_out, _ = self.lstm(x)
# lstm_out 的最后结果作为输入通过先前设定的成员函数 embedding 进行计算,得到 Linear 层的输出 embeds 。
embeds = self.embedding(lstm_out[:,-1,:])
# 对 embeds 最后一个维度计算 2 范数的同时保持维度不变, 得到 norm
norm = embeds.norm(p=2, dim=-1, keepdim=True)
# 使 embeds 除上文计算的 2 范数 norm ,得到标准化的 embeds_normalized
embeds_normalized = embeds.div(norm)
# 返回网络计算的结果 embeds_normalized
return embeds_normalized