Photo by Nicholas Githiri from Pexels
现如今,随着TTS技术不断发展,用户对于语音合成的音质质量、流畅度等拥有更高追求。语音合成中的风格控制、音色转换、歌声合成等技术是目前业界的难点和共同追求的方向。本次采访邀请到了喜马拉雅的音频算法工程师贺雯迪,她将从语音合成领域、TTS技术的发展状况和应用场景等方向与大家一同探讨。
文 / 贺雯迪
策划 / LiveVideoStack
LiveVideoStack:贺雯迪,你好,感谢你接受LiveVideoStack的采访,作为本次大会AI与多媒体内容生产创作专场的讲师,请先和大家介绍一下你目前负责的工作方向和演讲内容。
贺雯迪:我目前在喜马拉雅担任音频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、多音字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,音色克隆、神经声码器的优化等方向)。演讲的方向是基于现在语音合成领域中比较具有发展前瞻性和讨论性的:语音合成中风格迁移、情感合成、音色克隆等衍生方向上技术和应用方面的探讨。