基于Tacotron汉语语音合成的开源实践

最新推荐文章于 2024-05-31 13:51:09 发布

dakenan1

最新推荐文章于 2024-05-31 13:51:09 发布

阅读量868

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/dakenan1/article/details/99972723

版权

本文链接： https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/79850191

<div class="rich_media_content" id="js_content">
                

                

                
                
                <p style="margin-left:1em;line-height:1.5em;"><span style="font-size:14px;color:rgb(165,165,165);"></span></p><p style="line-height:1.5em;text-align:center;"><img style="visibility:visible !important;" src="https://img-blog.csdnimg.cn/img_convert/9fb259d16a14d139b8f5e25a180378b8.png;amp;wxfrom=5&amp;wx_lazy=1" alt="640?wx_fmt=jpeg&amp;wxfrom=5&amp;wx_lazy=1"></p><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:14px;color:rgb(165,165,165);"></span><br></p><blockquote><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:14px;color:rgb(165,165,165);">2017年初，Google 提出了一种新的端到端的语音合成系统——Tacotron。Tacotron打破了各个传统组件之间的壁垒，使得可以从&lt;文本，声谱&gt;配对的数据集上，完全随机从头开始训练。本文是来自喜马拉雅FM音视频工程师马力的投稿，他手把手式的介绍了Tacotron的使用方法，帮助你快速上手。</span></p></blockquote><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:14px;color:rgb(165,165,165);"><br></span></p><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:14px;color:rgb(165,165,165);">文 / 马力</span></p><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:14px;color:rgb(165,165,165);"><br></span></p><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:16px;color:rgb(89,89,89);">语音合成（Text to Speech Synthesis）是一种将文本转化为自然语音输出的技术，在各行各业有着广泛用途。传统TTS是基于拼接和参数合成技术，效果上同真人语音的自然度尚有一定差距，效果已经达到上限，在实现上也依赖于复杂流水线，比如以文本分析为前端的语言模型、语音持续时间模型、声学特征预测模型、将频谱恢复成时域波形的声码器（vocoder）。这些组件都是基于大量领域专业知识，设计上很艰难，需要投入大量工程努力，对于手头资源有限的中小型玩家来说，这种“高大上”的技术似乎有些玩不起。</span></p><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:16px;color:rgb(89,89,89);"><br></span></p><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:16px;color:rgb(89,89,89);">幸运的是近年来基于神经网络架构的深度学习方法崛起，使得原本在传统专业领域门槛极高的TTS应用上更接地气。现在，我们有了新方法Tacotron一种端到端的TTS生成模型。所谓“端到端”就是直接从字符文本合成语音，打破了各个传统组件之间的壁垒，使得我们可以从&lt;文本，声谱&gt;配对的数据集上，完全随机从头开始训练。从Tacotron的论文中我们可以看到，Tacotron模型的合成效果是优于要传统方法的。</span></p><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:16px;color:rgb(89,89,89);"><br></span></p><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:16px;color:rgb(89,89,89);"><img class="img_loading" src="https://img-blog.csdnimg.cn/img_convert/16775c31425bdeff091525305e397eb4.png" alt="640?wx_fmt=png"></span></p><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:16px;color:rgb(89,89,89);">本文下面主要内容是github上一个基于Tensorflow框架的开源Tacotron实现，介绍如何快速上手汉语普通话的语音合成。至于模型的技术原理，限于篇幅就不再详细介绍了，有兴趣可以直接阅读论文，本文的宗旨是，对于刚入门的同学能够在自己动手实践中获取及时的结果反馈。</span></p><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:16px;color:rgb(89,89,89);"><br></span></p><p style="margin-left:1em;line-height:1.5em;"><span style="font-size:16px;color:rgb(89,89,89);">在正文开始之前，笔者假设读者手头已经准备好项目运行的软硬件环境，包括NVIDIA GTX系列显卡及其驱动，能够在控制台上使用Python3引入Tensorflow模块。</span></p><p style="margin-left:1em;line-he