一、实现步骤:
1,语音识别“视频语音”到字幕文件(使用 openai-whisper larger-v2模型),并使用字幕制作软件,给字幕中每个对话,进行标注男女角色,并校准时间。
2,如果视频自带外语字幕,则图像识别出字幕(使用英语专用引擎V4),同样给字幕中每个对话,进行标注男女角色,并校准时间。
3,用chatGPT或DeepL对上面的字幕进行文字翻译,注意保留各对话的时间戳。可向AI反复提问,学习翻译技巧和地道表达。
4,用文字合成语音技术,按男女各角色分别配音,最后合并,并调整原视频音量或加入新背景音乐。(可使用Microsoft Edge tts,GPT-SoVITS clone-voice技术)
二、各步骤涉及软件信息:
1.语音/图像识别软件:录音啦,www.luyinla.com,识别率超高,某宝有20包年彩蛋
1.字幕制作软件:Arctime,https://arctime.cn,编辑字幕超好用,收费的AI功能能避则避
3.推荐chatGPT4.0中的SRT字幕翻译专家4.0,敏感词可用DeepL,免费的还有claude.ai
3.敏感词推荐DeepL,https://www.deepl.com 或https://getimg.ai/text-to-image,有1月免费试用
4.字幕配音软件ZTJ-TTS,https://ztjun.fun/1981.html,开通VIP会员才能用,注意用自己的微软ttsAPIkey,否则收费不便宜。若不是能实现按时间戳配音,否则微软免费的tts不要太香,https://speech.microsoft.com。其实 剪映也能实现字幕配音,但英语只有女王一个角色。
4.金舟系列的视频大师,能提供基本视频编辑功能,可考虑购买全系列的终身用户。
4. 等待试用的还有全流程视频翻译和配音工具,videotrans,https://github.com/jianchang512/pyvideotrans,
以及clone-voice技术的GPT-SoVITS,https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e?#