阿里巴巴又放大招了

最新推荐文章于 2024-04-27 22:01:23 发布

非著名程序员

最新推荐文章于 2024-04-27 22:01:23 发布

阅读量35

点赞数

文章标签：计算机视觉人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MjM5NDkxMTgyNw==&mid=2653078756&idx=1&sn=e2d1821949befc24b8ca20949137a475&chksm=bc29feb1c6430696ab32430f504c064e411442538d52f07208cbe8524e1adb7c3b1470f584ae&scene=126&sessionid=0

版权

loonggg

读完需要

2

分钟

速读仅需 1 分钟

上周阿里巴巴刚发了一个 EMO ，也就是你只需要提供一张你的照片+任意的音频文件，就能实现你说任何话或唱任何歌曲的动态视频的技术。

昨天，阿里巴巴又发布了 AtomoVideo ，而 AtomoVideo 是一种新颖的高保真图像到视频（I2V）生成框架，可以从输入图像生成高保真视频，比现有工作实现更好的运动强度和一致性，并且无需特定调整即可兼容各种个性化 T2I 模型。

AtomoVideo 框架灵活地扩展到视频帧预测任务，并通过迭代生成实现长序列预测。

论文强调了该框架与个性化模型和可控模块相结合的能力，通过定量和定性评估，AtomoVideo 比流行方法取得了更优异的成果。此外，AtomoVideo 在训练时采用 zero terminal Signal-to-Noise Ratio 和 v-prediction 策略，不依赖噪声先验来提高生成稳定性，这是其显著特点之一。

一句话总结就是：AtomoVideo ，你只需要提供一张图片，就可以生成一个符合真实世界运动状态的视频。

主要功能：

1、高保真视频生成：AtomoVideo 可以从单一静态图像生成高保真的视频序列，视频中的内容不仅与原始图片保持高度一致，而且动作自然流畅。

2、动作强度和连贯性：AtomoVideo 生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑，没有突兀或不自然的过渡。

为了让视频里的动作看起来自然，AtomoVideo 引入了时间卷积和时间注意力模块，这些模块专门处理视频帧之间的时间关系，帮助模型预测下一帧画面的变化，从而实现连贯的视频动作。AtomoVideo 会特别处理视频的时间信息，让图片中的物体像在真实世界那样随时间移动和变化。

3、个性化适配：AtomoVideo 能够与不同的个性化文本到图像（T2I）模型兼容，无需进行特定调整，这让它能够广泛适用于各种场景。AtomoVideo 还能结合文字描述来生成视频。比如，你给它一张静态的海边图片，并告诉它 “海浪轻轻拍打沙滩”，它就能根据这个描述生成一段海浪真的拍打沙滩的视频。

项目：atomo-video.github.io

论文：arxiv.org/abs/2403.01800

大家可以看一下演示视频:

最后，给大家分享一个我创建的知识星球，专门研究 AI 各种应用场景和落地实践的星球，里面都是分享关于 AI 实际应用的一些干货。如何用 AI 做各种工作的玩法。

送大家一个立减 50 的优惠券，只需要 49 元。持续干货分享，绝对超值。

点击下方公众号卡片，关注我

在公众号对话框，回复关键字 “1024”

有惊喜

非著名程序员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
阿里巴巴又放大招了

loonggg读完需要2分钟速读仅需 1 分钟上周阿里巴巴刚发了一个 EMO ，也就是你只需要提供一张你的照片+任意的音频文件，就能实现你说任何话或唱任何歌曲的动态视频的技术。昨天，阿里巴巴又发布了 AtomoVideo ，而 AtomoVideo 是一种新颖的高保真图像到视频（I2V）生成框架，可以从输入图像生成高保真视频，比现有工作实现更好的运动强度和一致性，并且无需特定调整即可兼容各种个性化...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。