喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现

喜马拉雅音频算法工程师贺雯迪分享了TTS技术的发展现状,强调了风格迁移、情感合成、音色克隆等领域的研究与应用。她提到,当前TTS技术基于深度学习框架,面临模型优化、数据集获取、评测机制精准化等问题。喜马拉雅通过自录数据和标注团队解决样本问题,并利用前端NLP处理文本信息,实现多音字、词性的区分。此外,贺雯迪介绍了音色克隆技术,通过小样本训练实现声音模仿。
摘要由CSDN通过智能技术生成

Photo by Nicholas Githiri from Pexels

现如今,随着TTS技术不断发展,用户对于语音合成的音质质量、流畅度等拥有更高追求。语音合成中的风格控制、音色转换、歌声合成等技术是目前业界的难点和共同追求的方向。本次采访邀请到了喜马拉雅的音频算法工程师贺雯迪,她将从语音合成领域、TTS技术的发展状况和应用场景等方向与大家一同探讨。

文 / 贺雯迪

策划 / LiveVideoStack

LiveVideoStack:贺雯迪,你好,感谢你接受LiveVideoStack的采访,作为本次大会AI与多媒体内容生产创作专场的讲师,请先和大家介绍一下你目前负责的工作方向和演讲内容。

贺雯迪:我目前在喜马拉雅担任音频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、多音字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,音色克隆、神经声码器的优化等方向)。演讲的方向是基于现在语音合成领域中比较具有发展前瞻性和讨论性的:语音合成中风格迁移、情感合成、音色克隆等衍生方向上技术和应用方面的探讨。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值