【项目实战】AUTOVC 代码解析 —— model_bl.py

最新推荐文章于 2024-04-25 09:58:25 发布

FallenDarkStar

最新推荐文章于 2024-04-25 09:58:25 发布

阅读量512

点赞数 2

分类专栏： AUTOVC 文章标签： python 深度学习人工智能 pytorch 神经网络

本文链接：https://blog.csdn.net/weixin_42721167/article/details/114752310

版权

AUTOVC 专栏收录该内容

9 篇文章 5 订阅

订阅专栏

AUTOVC 代码解析 —— model_bl.py

文章目录

AUTOVC 代码解析 —— model_bl.py

简介

本项目一个基于 AUTOVC 模型的语音转换项目，它是使用 PyTorch 实现的(项目地址)。

AUTOVC 遵循自动编码器框架，只对自动编码器损耗进行训练，但它引入了精心调整的降维和时间下采样来约束信息流，这个简单的方案带来了显著的性能提高。(详情请参阅 AUTOVC 的详细介绍)。

由于 AUTOVC 项目较大，代码较多。为了方便学习与整理，将按照工程文件的结构依次介绍。

本文将介绍项目中的 model_bl.py 文件：设计了一个说话人嵌入网络模型。

类解析

D_VECTOR

该类的意义为：d 向量说话人嵌入

D_VECTOR 继承 PyTorch 中网络模型的基类： torch.nn.Module 。
故需要重载两个函数：__init__ 与 forward 。

下面依次介绍 D_VECTOR 类的成员函数

init

该函数的作用是： 创建 D_VECTOR 说话人嵌入网络模型需要的元素。

输入参数：

		num_layers	:	LSTM 层复用的次数，默认为 3
		dim_input	:	输入数据的大小，默认为 40
		dim_cell	:	LSTM 层隐藏单元的数量，默认为 256
		dim_emb		:	输出数据的大小，默认为 64

输出参数： 无

代码详解：

	    def __init__(self, num_layers=3, dim_input=40, dim_cell=256, dim_emb=64):
	        # 调用父类初始化函数，初始化模型基本参数
	        super(D_VECTOR, self).__init__()
	        
	        # 创建成员函数 lstm :将一种多层长短期记忆(LSTM) RNN 应用于输入序列；
	        # 输入大小为 dim_input ，隐层单元数量为 dim_cell ，复用的层数为 num_layers ， batch_first 为 True 。
	        self.lstm = nn.LSTM(input_size=dim_input, hidden_size=dim_cell, 
	                            num_layers=num_layers, batch_first=True)  
	        # 创建成员函数 embedding :对输入的数据应用线性变换: y = xA^T + b
	        # 输入样本大小为 dim_cell ，输出样本大小为 dim_emb 。
	        self.embedding = nn.Linear(dim_cell, dim_emb)

forward

该函数的作用是： 定义了执行网络模型的计算过程

输入参数：

		x	:	输入网络的数据样本

输出参数：

		embeds_normalized	:	标准化的说话人嵌入

代码详解：

	    def forward(self, x):
	        # 重置参数数据指针，以便使用更快的代码路径
	        # 需注意的是，该设置仅当模块在 GPU 上并且 cuDNN 被启用时才有效
	        self.lstm.flatten_parameters()            
	        # 输入的数据样本通过先前设定的成员函数 lstm 进行计算，得到 LSTM 层的输出 lstm_out 。
	        lstm_out, _ = self.lstm(x)
	        # lstm_out 的最后结果作为输入通过先前设定的成员函数 embedding 进行计算，得到 Linear 层的输出 embeds 。
	        embeds = self.embedding(lstm_out[:,-1,:])
	        # 对 embeds 最后一个维度计算 2 范数的同时保持维度不变， 得到 norm
	        norm = embeds.norm(p=2, dim=-1, keepdim=True) 
	        # 使 embeds 除上文计算的 2 范数 norm ，得到标准化的 embeds_normalized 
	        embeds_normalized = embeds.div(norm)
	        # 返回网络计算的结果 embeds_normalized 
	        return embeds_normalized

FallenDarkStar

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【项目实战】AUTOVC 代码解析 —— model_bl.py

AUTOVC 代码解析 —— model_bl.py文章目录AUTOVC 代码解析 —— model_bl.py  简介  类解析    D_VECTOR      __ init __      forward  简介       本项目一个基于 AUTOVC 模型的语音转换项目，它是使用 PyTorch 实现的(项目地址)。  &nbsp
复制链接

扫一扫