微软推出VASA-1：通过单张图片和音频创造逼真人脸，技术前景与潜在风险并存

最新推荐文章于 2024-06-25 09:31:03 发布

新加坡内哥谈技术

最新推荐文章于 2024-06-25 09:31:03 发布

阅读量785

点赞数 10

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79342058/article/details/137981646

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

微软研究人员开发了名为VASA的新系统（VASA-1 - Microsoft Research），该系统能够仅使用一张图片和一段音频就创造出逼真的会说话的人脸。VASA-1是基于此框架构建的第一个模型，能够产生精确同步的唇动、自然的头部动作和面部表情，这些都有可能在各种应用中创造更加引人入胜和逼真的体验。

VASA-1的功能不仅仅是将唇部动作与音频匹配。它能够捕捉广泛的情感、细微的面部差异和自然的头部动作，使生成的面孔显得更加可信。此外，用户还可以控制生成视频的内容，比如指定角色的凝视方向、感知距离乃至情绪状态。

最棒的是，该系统还设计有处理意外输入的能力。尽管VASA-1没有针对艺术照片、歌声或非英语语音进行训练，但它仍然可以使用这些输入生成视频。

VASA-1之所以能实现这种现实感，是通过将面部特征、3D头部位置和面部表情分离开来处理。这种“解耦”为视频生成中这些方面的独立控制和编辑提供了可能。

VASA-1的研究团队还强调了其实时效率。该系统能够以高帧率产生高分辨率视频（512×512像素），在离线模式下，其生成帧率为每秒45帧，而在线生成的帧率为每秒40帧。

虽然承认这项技术可能被滥用的潜力，研究人员还是强调了VASA-1的积极应用，包括增强教育体验、帮助有沟通障碍的人士，以及提供陪伴或治疗支持。

然而，我对这项研究论文的时机提出质疑。我认为鉴于人们在社交媒体上会轻信见到的任何东西，这项技术可能会在选举期间被严重滥用，其发布时间本可以推迟。此外，我发现这项技术与谷歌的VLOGGER非常相似。

新加坡内哥谈技术

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
微软推出VASA-1：通过单张图片和音频创造逼真人脸，技术前景与潜在风险并存

VASA-1是基于此框架构建的第一个模型，能够产生精确同步的唇动、自然的头部动作和面部表情，这些都有可能在各种应用中创造更加引人入胜和逼真的体验。它能够捕捉广泛的情感、细微的面部差异和自然的头部动作，使生成的面孔显得更加可信。该系统能够以高帧率产生高分辨率视频（512×512像素），在离线模式下，其生成帧率为每秒45帧，而在线生成的帧率为每秒40帧。虽然承认这项技术可能被滥用的潜力，研究人员还是强调了VASA-1的积极应用，包括增强教育体验、帮助有沟通障碍的人士，以及提供陪伴或治疗支持。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。