WaveNet: A Generative Model For Raw Audio
目的主要是:生成的语音听起来比其他的tts方法更流畅。
还可以实现:文本到语音,语音转换,生成音乐,辨别
其实就是提供了一个通用的网络,加以改造就能够完成不同的任务
相关的知识:
PixelCnn 用于图片生成的cnn
casual convolution 因果卷积
dilated convolution 扩展卷积
gated activation
residual and skip connection
残差神经网络ResNet:
https://blog.csdn.net/qq_40027052/article/details/78261737
http://www.itboth.com/d/iqyQF3/resnet-connection-skip
skip connection是残差神经网络的连接方式
https://www.jianshu.com/p/09643588f373
论文的中文翻译:
https://my.oschina.net/stephenyng/blog/1621584
论文的blog:
https://deepmind.com/blog/wavenet-generative-model-raw-audio/
论文中提到的文本转语音的方法(先使用tts模型),论文中gate的操作原因:
https://www.zhihu.com/question/56017966/answer/253599651
论文一般模型的输入输出:
https://www.cnblogs.com/seanliao/p/9595536.html