TTS中的length_regular(分箱算法)的静态实现形式

该代码定义了一个名为OnnxLengthRegulator的神经网络模块,用于处理序列数据的长度调整。它根据给定的持续时间(duration)动态计算padding位置,使用cumsum方法和torch的比较操作来确定非零元素的索引。然后,它选择并堆叠序列中的有效部分,最后返回处理后的输出和mask的总和,用于指示有效长度。
摘要由CSDN通过智能技术生成
class OnnxLengthRegurator(nn.Module):
    def __init__(self, max_len=1400):
        super().__init__()
        self.max_len = max_len
        # The maximum length of the make_pad_mask is the
        # maximum value of the duration.
        self.make_pad_mask = None #MakePadMask(max_seq_len, flip=False)
    
    def LR(self, x, duration):
        duration = duration.to(torch.int32)
        # positions = (torch.arange(self.max_len).unsqueeze(-1).unsqueeze(-1) < duration.cumsum(1)).sum(2)
        positions = (torch.arange(self.max_len).unsqueeze(-1).unsqueeze(-1).to(torch.int32) < duration.cumsum(1).to(torch.int32)).sum(2)

        mask = positions.ne(0)
        index = ((duration.size(1) - positions) * mask).T

        x_l = [torch.index_select(x[i], 0, index[i]) for i in range(x.size(0))]
        outputs = torch.stack(x_l).to(x.dtype)
        outputs = outputs * mask.T.unsqueeze(-1)
        # outputs torch.Size([2, 1000, 256]) batch, mel_len, hidden
        return outputs, mask.sum(0)

    def forward(self, x, duration):
        output, mel_len = self.LR(x, duration)
        return output  #, mel_len
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值