神奇的WaveNet

本文介绍了谷歌DeepMind的WaveNet,一种深度生成网络,用于逼真地生成音频波形。文章对比了衔接式和参数式TTS,重点阐述了WaveNet基于扩展卷积网络和扩展因果卷积(带孔卷积)在语音合成中的原理和优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 背景

        WaveNet是由谷歌DeepMind提出的深度生成网络,教计算机如何逼真的再现人和乐器的声音,用来生成原始音频波形的深度对抗模型。

        其基于扩展卷积网络,使用参数化的文本语音转换方法,直接生成原始语音。扩展卷积网络是一种卷积滤波器有孔的特定卷积网络,允许感受野在深度方向以指数增长,从而有效地覆盖数千个时步。

2. TTS简介

        TTS系统通常分为两个不同的类。

2.1 衔接式TTS

        每次重新生成时,都是把单个语音片段联合起来,不易扩展,只能重现记忆中的声音片段。

2.2 参数式TTS

        创建一个模型用以存储所有要合成语音的音频特征。

3. WaveNet原理

        理论上,WaveNet可以看作一个固定步幅和没有池化层的一维卷积层的堆栈;
纯卷积网络在学习如何合成语音方面并不那么有效,WaveNet之上的关键概念是扩展因果卷积,
有时称为带孔卷积(当卷积层应用了滤波器时一些输入将被略过)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值