最近视频克隆翻译是在是太火了,不管是霉霉采访说中文,还是郭德纲讲英文相声。而且很多公司都推出了视频克隆翻译的产品,国内的克隆产品包括阿里云、腾讯云,海外的直接面向普通用户的克隆产品包括HeyGen、ElevenLabs、Rask都提供了声音克隆的视频翻译产品,适用于个人叙述、产品讲解、教育宣传类视频,他们大都是单角色的视频翻译和克隆,并且背景声音并不复杂。但对于短剧、电影、电视剧、访谈、综艺节目,往往会有多个角色,也都有复杂的音效和背景音。如何实现视频中的多角色高质量的翻译、克隆和配音呢?我们今天就来讨论一下这里的解决方案。
多角色翻译、克隆配音的传统流程和方法
使用多角色语音克隆,并完成音画对齐、视频翻译等,我们需要几个步骤和工具:
第一步:准备你的视频:
[工具1:人声音频分离工具]选择您要翻译的视频,确保它具有清晰的音频和清晰背景音乐。通过此工具分离所有的人声和背景音乐;
[工具2:ASR工具]准备原始字幕文件:转录视频中的原始对话,确保准确的拼写和标点符号。这将是翻译文本的基础。
第二步:翻译和语音克隆:
[工具3:翻译与多角色标记工具]选择一个翻译软件,对上面工具2提取的字幕进行翻译和校准,并在翻译的过程中标记多个角色。这里通过AI可以对角色进行预标记,但建议是通过人工再次校准。文心、ChatGPT等大模型通常拥有较高的翻译质量。
[工具4:语音分割与合成工具]:对工具1分离的人声按角色对声音进行汇总,这里需要对人声质量进行评估。最后将高质量的人声数据进行合并,准备较长时间的分角色的人声音频。
[工具5:具有TTS功能的语音克隆工具]:我们可以借助很多克隆工具,在购买克隆角色之后,上传工具4准备好的所有单角色音频,获得克隆后的角色音频。并依据3中生成的翻译文本和时间信息,使用声音克隆进行生成与原始说话者的语气和风格相匹配的合成声音。
第三步:后期编辑,音频/视觉/背景声音对齐:
[工具6:视频编辑工具]:将工具1的背景音乐、工具3的翻译文本、工具5的克隆音频导入视频编辑软件,由于每个国家、每个音色的语速并不一致,为了保证文本、画面、声音、音效、背景音乐的一致性。这里需要逐个镜头和音频进行分段调整。你可以通过句子简化、音频加速、视频减速、视频补帧等方案来达到声音、画面和背景音乐的对齐。 在此期间,为了保证生成后音视频的质量,你可能还会用到以下其他工具,包括但不限于:
-
音素对齐,实现声音和字幕的无缝逐渐展示;
-
声音降噪,来获得更高质量的人声;
-
视频补帧,来实现视频加减速、分割过程中的帧率减少;
-
响度调整,来保证音频、背景音乐与原视频的响度保持一致;
你至少需要6个不同的工具来实现多角色的视频翻译和克隆,手工操作非常的耗时且需要花费大量的钱在不同的工具上。你可能遇到的难题:
-
每个新的工具的都有一定的学习曲线和复杂性,工具越多需要的学习的技能和时间就越多。
-
预算和项目规模也在约束不同的范围,并不是什么都用PR等专业剪辑效果最好,也并不是所有的细节都用人工调整更好。适当的用AI会起到很好的效果。
使用AI工具一站式完成多角色翻译、克隆和配音。GhostCut已经面向短剧、电影、电视剧、访谈、综艺节目等多人角色场景,提供上述一揽子的AI功能,并真正实现了全自动的克隆配音和音画对齐,助力内容走出中国,走向全球。
使用AI进行多角色翻译和克隆配音的案例
自动多角色语音克隆和音频/画面对齐的视频翻译的真实案例
全自动多角色翻译克隆和配音,自动音画对齐。综艺访谈、电视剧、电影和短剧翻译配音神器,出海本土化的福音。
这是一个真实的案例,使用鬼手剪辑给电视剧的每个角色自动克隆配音,这只是一小片段,整剧效果更为炸裂,收到观众一致好评。
如何使用GhostCut给多角色视频翻译和语音克隆?
GhostCut的视频克隆产品使用多种AI音频处理技术,如声音分离、降噪、克隆和合成,以提高克隆视频的质量。 视频克隆处理流程及所需材料和产品如下:
流程 | 所需数据 | 获得产物 |
1.训练声音↓ | 1.部分剧集音频(含所有角色声音)2.原文、译文和角色标注信息 | 1.每个角色的声音id |
2.使用声音↓ | 1.全部剧集视频 | 1.全部翻译克隆后的作品2.分离后的背景声3.仅用克隆声音合成的人声 |
3.删除声音 | 通过剧集或声音 |
你只需上传视频和部分标注文件,无需其他任何操作,即可全自动实现多角色翻译克隆和配音。是不是很棒?针对于没有标注能力的客户,鬼手即将提供AI预标记工具,主动标记剧中角色,方便训练。
以下是使用鬼手剪辑进行多角色翻译克隆配音的具体流程介绍:
1.训练每个角色的声音
在使用声音克隆功能之前,你需要训练声音模型。训练数据是剧集原始音源的一部分,需要包括所有角色。但你无需分离人声和背景音乐,仅提供源视频或者源视频的音频即可。GhostCut会自动分离声音、分离背景音乐、分离人声并对这里的各种音频进行优化,评估。最后把单角色的声音汇总并训练,每个角色的声音ID都会生成。
2.使用克隆声音为多角色配音
使用声音模型克隆视频时,需要提供整集视频、原文、译文、人物标注,GhostCut会根据标注信息将视频中的音频分离为背景音和人声,然后,使用声音模型克隆人声,并与背景音合成,生成克隆视频。这里GhostCut会对字幕、音频、画面、背景音乐、音效等进行分段计算和AI对齐,并对视频、音频的质量做再次优化,让视频尽量跟原视频的情感、风格、响度等都保持一致。
3.使用后删除声音
当你用完每个声音,可以保留为下一部剧集使用,也可以删除本次训练的角色。再以后得场景中重新训练新的声音进行克隆、配音。 备注:声音克隆的原理是利用人工智能技术提取原声的音频特征,然后生成新的音频,因此克隆出来的声音与原声会有一些区别。声音克隆价格在几块钱到十几块钱一分钟不等。可在线找客服进行咨询。目前声音克隆正在限量开放,欢迎交流咨询。
让我们一起通过AI为内容出海赋能,让内容出海营销更简单。