AI赋能视频译制,微软和人大提出自动视频译制技术VideoDubber

微软亚洲研究院和中国人民大学提出VideoDubber,一种自动视频译制技术,发表在AAAI 2023。该技术考虑语音长度,改善翻译同步性,降低视频译制成本。VideoDubber在多个语言方向上超越基线模型,提供更精确的语音长度控制和翻译质量。
摘要由CSDN通过智能技术生成

44583541eb587ee7fc8a64a55af41565.gif

4ce4de3da8c66676ac2773d46c4d7b6a.png

简介

目前,依赖人工方法的视频译制流程繁琐,通常制作周期长、成本高。未来借助人工智能技术,视频译制有望自动完成。近日,微软亚洲研究院和微软 Azure 认知服务团队联合中国人民大学高瓴人工智能学院提出了自动视频译制技术 VideoDubber,研究成果发表在 AAAI 2023 上。VideoDubber 在保证翻译质量的同时,提升了视频译制的同步性,大大简化了视频译制流程,降低了制作成本。

视频译制(video dubbing)一般指将视频中语音由原始语言翻译为目标语言,并保证翻译后语音与画面的一致性。通常视频译制可通过级联的多个系统组成,包括语音识别,机器翻译和语音合成。为保证翻译后的语音与原始视频对应,通常先在机器翻译阶段控制文本长度,再在语音合成阶段调整合成语音的长度(如图 1 所示)。

c0fe90bf69c7daf53923770d64a3fa51.png

▲ 图1:英文→中文的视频译制示例。在翻译原文“A painting is much more than the simple sum of its parts”。在机器翻译阶段,其对应的原始语音时长为3.01s。以往的方法仅在翻译阶段控制字数,可能会导致生成的语音与原始语音时长相差很大。VideoDubber直接考虑语音长度,从而生成时长非常接近原始语音的翻译结果。在此基础上,语音合成模型只需要稍作调整就能得到理想的语音翻译结果。

以往的工作通常只在机器翻译阶段控制翻译后的单词/字母的数量,而不考虑在不同语言中单词/字符发音持续时间的不同。在这篇工作中,研究团队提出了一个为视频配音任务量身定制的机器翻译方法 VideoDubber,它直接考虑翻译中每个 token 的语音时长(duration),以匹配目标语音的长度。

具体来说,研究团队通过使用时长信息来引导每个单词的预测,从而控制生成句子的语音长度。实验结果表明,VideoDubber 在四个语言方向(德语→英语、西班牙语→英语、汉语↔英语)上的视频译制同步性方面优于基线模型。此外,由于真实视频译制数据集的不足,研究团队还构建了一个从电影中收集的真实场景测试集,对视频译制任务进行综合评价。

d5d6525f73c1a8e92dcc526f8411c8e0.png

论文标题:

VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing, AAAI 2023

论文作者&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值