在近期的技术发布会上,B站正式推出了其最新的文本转语音(TTS)模型——IndexTTS。这款模型以令人瞩目的1.3%词错误率(WER)刷新了行业记录,并通过中文字符-拼音混合建模、精准停顿控制与跨模态优化等先进技术,重新定义了AI语音生成的精度和自然度标准。
技术核心:突破中文语音挑战
IndexTTS的成功在于对中文语言特性的深刻理解和创新应用。其核心技术架构包含以下三大革新模块:
字符-拼音混合建模
该模块引入了双向映射机制,允许用户直接输入拼音来纠正多音字,如“行”在xíng/háng间的动态切换。通过对抗训练框架,同音异义字误读率从8.7%显著降低至0.9%,并支持拼音标注与汉字文本的任意比例混合输入,适用于方言矫正等复杂场景。
Conformer条件编码器
Conformer融合了Transformer全局注意力和CNN局部感知的优势,显著提升了长文本处理时的韵律一致性,提升幅度达42%。时间戳嵌入技术实现了标点符号驱动的精准停顿控制,例如逗号停顿0.3秒,句号停顿0.8秒。在《红楼梦》等古文朗读测试中,断句准确率达到了98.6%。