【项目实战】AUTOVC 代码解析 —— model_bl.py

AUTOVC 代码解析 —— model_bl.py

  简介

       本项目一个基于 AUTOVC 模型的语音转换项目,它是使用 PyTorch 实现的(项目地址)。
       
        AUTOVC 遵循自动编码器框架,只对自动编码器损耗进行训练,但它引入了精心调整的降维和时间下采样来约束信息流,这个简单的方案带来了显著的性能提高。(详情请参阅 AUTOVC 的详细介绍)。
       
       由于 AUTOVC 项目较大,代码较多。为了方便学习与整理,将按照工程文件的结构依次介绍。
       
       本文将介绍项目中的 model_bl.py 文件:设计了一个说话人嵌入网络模型。
       

  类解析

    D_VECTOR

        该类的意义为:d 向量说话人嵌入
       
        D_VECTOR 继承 PyTorch 中网络模型的基类: torch.nn.Module
       故需要重载两个函数:__init__forward
       
       下面依次介绍 D_VECTOR 类的成员函数
       

      __ init __

          该函数的作用是: 创建 D_VECTOR 说话人嵌入网络模型需要的元素。

          输入参数:

		num_layers	:	LSTM 层复用的次数,默认为 3
		dim_input	:	输入数据的大小,默认为 40
		dim_cell	:	LSTM 层隐藏单元的数量,默认为 256
		dim_emb		:	输出数据的大小,默认为 64

          输出参数:

          代码详解:

	    def __init__(self, num_layers=3, dim_input=40, dim_cell=256, dim_emb=64):
	        # 调用父类初始化函数,初始化模型基本参数
	        super(D_VECTOR, self).__init__()
	        
	        # 创建成员函数 lstm :将一种多层长短期记忆(LSTM) RNN 应用于输入序列;
	        # 输入大小为 dim_input ,隐层单元数量为 dim_cell ,复用的层数为 num_layers , batch_first 为 True 。
	        self.lstm = nn.LSTM(input_size=dim_input, hidden_size=dim_cell, 
	                            num_layers=num_layers, batch_first=True)  
	        # 创建成员函数 embedding :对输入的数据应用线性变换: y = xA^T + b
	        # 输入样本大小为 dim_cell ,输出样本大小为 dim_emb 。
	        self.embedding = nn.Linear(dim_cell, dim_emb)
        

         

      forward

          该函数的作用是: 定义了执行网络模型的计算过程

          输入参数:

		x	:	输入网络的数据样本

          输出参数:

		embeds_normalized	:	标准化的说话人嵌入

          代码详解:

	    def forward(self, x):
	        # 重置参数数据指针,以便使用更快的代码路径
	        # 需注意的是,该设置仅当模块在 GPU 上并且 cuDNN 被启用时才有效
	        self.lstm.flatten_parameters()            
	        # 输入的数据样本通过先前设定的成员函数 lstm 进行计算,得到 LSTM 层的输出 lstm_out 。
	        lstm_out, _ = self.lstm(x)
	        # lstm_out 的最后结果作为输入通过先前设定的成员函数 embedding 进行计算,得到 Linear 层的输出 embeds 。
	        embeds = self.embedding(lstm_out[:,-1,:])
	        # 对 embeds 最后一个维度计算 2 范数的同时保持维度不变, 得到 norm
	        norm = embeds.norm(p=2, dim=-1, keepdim=True) 
	        # 使 embeds 除上文计算的 2 范数 norm ,得到标准化的 embeds_normalized 
	        embeds_normalized = embeds.div(norm)
	        # 返回网络计算的结果 embeds_normalized 
	        return embeds_normalized
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值