微软推出VASA-1:通过单张图片和音频创造逼真人脸,技术前景与潜在风险并存

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

微软研究人员开发了名为VASA的新系统 (VASA-1 - Microsoft Research),该系统能够仅使用一张图片和一段音频就创造出逼真的会说话的人脸。VASA-1是基于此框架构建的第一个模型,能够产生精确同步的唇动、自然的头部动作和面部表情,这些都有可能在各种应用中创造更加引人入胜和逼真的体验。

VASA-1的功能不仅仅是将唇部动作与音频匹配。它能够捕捉广泛的情感、细微的面部差异和自然的头部动作,使生成的面孔显得更加可信。此外,用户还可以控制生成视频的内容,比如指定角色的凝视方向、感知距离乃至情绪状态。

最棒的是,该系统还设计有处理意外输入的能力。尽管VASA-1没有针对艺术照片、歌声或非英语语音进行训练,但它仍然可以使用这些输入生成视频。

VASA-1之所以能实现这种现实感,是通过将面部特征、3D头部位置和面部表情分离开来处理。这种“解耦”为视频生成中这些方面的独立控制和编辑提供了可能。

VASA-1的研究团队还强调了其实时效率。该系统能够以高帧率产生高分辨率视频(512×512像素),在离线模式下,其生成帧率为每秒45帧,而在线生成的帧率为每秒40帧。

虽然承认这项技术可能被滥用的潜力,研究人员还是强调了VASA-1的积极应用,包括增强教育体验、帮助有沟通障碍的人士,以及提供陪伴或治疗支持。

然而,我对这项研究论文的时机提出质疑。我认为鉴于人们在社交媒体上会轻信见到的任何东西,这项技术可能会在选举期间被严重滥用,其发布时间本可以推迟。此外,我发现这项技术与谷歌的VLOGGER非常相似。

  • 10
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值