最新的语言翻译模型: 音频转文本,文本翻译成文本效果还是很不错的,large模型翻译的时候gpu使用量是5400M左右 https://github.com/facebookresearch/seamless_communication