阿里巴巴又放大招了

loonggg

读完需要

2

分钟

速读仅需 1 分钟

上周阿里巴巴刚发了一个 EMO ,也就是你只需要提供一张你的照片+任意的音频文件,就能实现你说任何话或唱任何歌曲的动态视频的技术。

昨天,阿里巴巴又发布了 AtomoVideo ,而 AtomoVideo 是一种新颖的高保真图像到视频(I2V)生成框架,可以从输入图像生成高保真视频,比现有工作实现更好的运动强度和一致性,并且无需特定调整即可兼容各种个性化 T2I 模型。

AtomoVideo 框架灵活地扩展到视频帧预测任务,并通过迭代生成实现长序列预测。

论文强调了该框架与个性化模型和可控模块相结合的能力,通过定量和定性评估,AtomoVideo 比流行方法取得了更优异的成果。此外,AtomoVideo 在训练时采用 zero terminal Signal-to-Noise Ratio 和 v-prediction 策略,不依赖噪声先验来提高生成稳定性,这是其显著特点之一。

一句话总结就是:AtomoVideo ,你只需要提供一张图片,就可以生成一个符合真实世界运动状态的视频。

主要功能:

1、高保真视频生成:AtomoVideo 可以从单一静态图像生成高保真的视频序列,视频中的内容不仅与原始图片保持高度一致,而且动作自然流畅。

2、动作强度和连贯性:AtomoVideo 生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑,没有突兀或不自然的过渡。

为了让视频里的动作看起来自然,AtomoVideo 引入了时间卷积和时间注意力模块,这些模块专门处理视频帧之间的时间关系,帮助模型预测下一帧画面的变化,从而实现连贯的视频动作。AtomoVideo 会特别处理视频的时间信息,让图片中的物体像在真实世界那样随时间移动和变化。

3、个性化适配:AtomoVideo 能够与不同的个性化文本到图像(T2I)模型兼容,无需进行特定调整,这让它能够广泛适用于各种场景。AtomoVideo 还能结合文字描述来生成视频。比如,你给它一张静态的海边图片,并告诉它 “海浪轻轻拍打沙滩”,它就能根据这个描述生成一段海浪真的拍打沙滩的视频。

项目:atomo-video.github.io

论文:arxiv.org/abs/2403.01800

大家可以看一下演示视频:

最后,给大家分享一个我创建的知识星球,专门研究 AI 各种应用场景和落地实践的星球,里面都是分享关于 AI 实际应用的一些干货。如何用 AI 做各种工作的玩法。

送大家一个立减 50 的优惠券,只需要 49 元。持续干货分享,绝对超值。

5eeb75e9155c419071ec8d7deb57b1a7.jpeg

a2ae412dbefc6e58d9340c63e5a1de7b.jpeg

e9c266d5ca7a3b8d962361e8315a2c80.jpeg

点击下方公众号卡片,关注我

在公众号对话框,回复关键字 “1024”

有惊喜

1a638fa663505a26aa5308d474dfb449.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值