Fish Audio 发布 Fish Speech 1.4：强大的开源文本转语音模型，支持多语言、即时语音克隆和闪电般快速的性能

最新推荐文章于 2025-03-26 15:35:51 发布

AI甲子光年

最新推荐文章于 2025-03-26 15:35:51 发布

阅读量3.8k

点赞数 10

文章标签：人工智能玩游戏 chatgpt 自动驾驶

本文链接：https://blog.csdn.net/2401_87032549/article/details/142331917

版权

Fish Audio正式推出了其强大的文本到语音（TTS）模型的高级版本——Fish Speech 1.4。通过这次发布，Fish Audio旨在将尖端的语音技术普及化，使全球开发者、研究人员和企业都能更容易地访问。Fish Speech的最新版本极大地增强了其前身，通过扩大训练数据、增加对更多语言的支持，并提供更简化和灵活的用户体验。该版本现在完全开源，进一步强化了公司提供高性能语音技术开放访问的使命。

扩展的训练数据和语言支持

Fish Speech 1.4的最显著进展之一是其训练数据的显著增加。该模型已经在700,000小时的多语言音频数据上进行了训练，这是之前版本的200,000小时训练数据的巨大飞跃。这个扩展的数据集提升了模型处理各种声音、口音和语言的准确性和自然性。

Fish Speech 1.4还引入了对八种语言的支持，提升了其在全球应用中的多功能性。这些语言包括英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语。模型在这些语言的能力体现在大规模的训练数据中：英语和中文各300,000小时，其他六种语言各20,000小时。这一庞大的数据集使模型能够在这些语言中提供高质量的文本到语音转换，满足不同地区广大受众的需求。

Fish Speech 1.4的关键特性

Fish Speech 1.4因其能够满足用户多样化需求的强大功能而脱颖而出。一个重要的亮点是其超低延迟的闪电般快速的TTS能力，使其适用于实时应用，如直播、游戏和交互式语音应答系统。这确保了用户体验到最小的延迟，保持流畅的互动和一致的性能。

除了速度之外，该模型现在还支持即时语音克隆，允许用户几乎瞬间复制特定的声音。这个功能在媒体制作、内容创作、客户服务和个性化通信中有着广泛的应用。Fish Speech 1.4通过在最少数据的情况下进行准确的语音复制，提供了一个可扩展且高效的语