喜马拉雅贺雯迪：基于端到端TTS实现更具生动、富有情感的语音合成表现

LiveVideoStack_

于 2020-05-08 11:03:00 发布

阅读量2.1k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/106009759

版权

喜马拉雅音频算法工程师贺雯迪分享了TTS技术的发展现状，强调了风格迁移、情感合成、音色克隆等领域的研究与应用。她提到，当前TTS技术基于深度学习框架，面临模型优化、数据集获取、评测机制精准化等问题。喜马拉雅通过自录数据和标注团队解决样本问题，并利用前端NLP处理文本信息，实现多音字、词性的区分。此外，贺雯迪介绍了音色克隆技术，通过小样本训练实现声音模仿。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Photo by Nicholas Githiri from Pexels

现如今，随着TTS技术不断发展，用户对于语音合成的音质质量、流畅度等拥有更高追求。语音合成中的风格控制、音色转换、歌声合成等技术是目前业界的难点和共同追求的方向。本次采访邀请到了喜马拉雅的音频算法工程师贺雯迪，她将从语音合成领域、TTS技术的发展状况和应用场景等方向与大家一同探讨。

文 / 贺雯迪

策划 / LiveVideoStack

LiveVideoStack：贺雯迪，你好，感谢你接受LiveVideoStack的采访，作为本次大会AI与多媒体内容生产创作专场的讲师，请先和大家介绍一下你目前负责的工作方向和演讲内容。

贺雯迪：我目前在喜马拉雅担任音频算法工程师，工作研发方向是TTS前端模块的搭建和优化（文本规整化、分词、多音字、韵律预测等），后端算法（基于深度生成模型的说话人风格转换，情感控制，音色克隆、神经声码器的优化等方向）。演讲的方向是基于现在语音合成领域中比较具有发展前瞻性和讨论性的：语音合成中风格迁移、情感合成、音色克隆等衍生方向上技术和应用方面的探讨。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。