离线生成双语字幕基于AI大模型ModelScope_语音转文字大模型离线-CSDN博客

本文链接：https://blog.csdn.net/softshow1026/article/details/135909827

本文介绍了如何离线制作双语字幕，包括人声背景音分离（如FRCRN语音降噪）、语音转文字（faster-whisper）、大模型翻译（如CSANMT）以及合并字幕（ffmpeg）。通过这些工具和技术，普通用户也能轻松创建自己的字幕文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

制作双语字幕的方案网上有很多，林林总总，不一而足。制作双语字幕的原理也极其简单，无非就是人声背景音分离、语音转文字、文字翻译，最后就是字幕文件的合并，但美中不足之处这些环节中需要接口api的参与，比如翻译字幕，那么有没有一种彻底离线的解决方案？让普通人也能一键制作双语字幕，成就一个人的字幕组？

人声背景音分离

如果视频不存在嘈杂的背景音，那么大多数情况下是不需要做人声和背景音分离的，但考虑到背景音可能会影响语音转文字的准确率，那么人声和背景音分离还是非常必要的，关于人声抽离，我们首先想到的解决方案当然是spleeter，但其实，阿里通义实验室开源的大模型完全不逊色于spleeter，它就是FRCRN语音降噪-单麦-16k，模型官方地址：

https://modelscope.cn/models/iic/speech_frcrn_ans_cirm_16k/summary

FRCRN语音降噪模型是基于频率循环 CRN (FRCRN) 新框架开发出来的。该框架是在卷积编-解码(Convolutional Encoder-Decoder)架构的基础上，通过进一步增加循环层获得的卷积循环编-解码(Convolutional Recurrent Encoder-Decoder)新型架构，可以明显改善卷积核的视野局限性，提升降噪模型对频率维度的特征表达，尤其是在频率长距离相关性表达上获得提升，可以在消除噪声的同时，对语音进行更针对性的辨识和保护。

需要注意的是该模型再Pytorch1.12上有bug，所以最好指定版本运行：