年初,阿里整了个技术门槛相当高的AI花活儿。

击上方关注 “终端研发部

 
 
设为“星标”,和你一起掌握更多数据库知识

如果回忆过去一年最让人印象深刻的科技事件或现象,那 AI 得是数一数二的。

AIGC 大模型的火热,让我们每个普通人都切身感受到了 AI 的神奇魔力。不说别的,就大家在刷微博刷抖音时,也一定越来越频繁会看到由 AI 创作的奇妙图片、视频。   

9c05f0f367116a5cf9856df2642a017c.jpeg

这不,最近又有一个 AI 大模型火出圈了。

上传一张真人的,或动漫卡通的人物照片,就能免费生成一段这个人物舞蹈的视频,听起来是不是就很有趣?         

78b318bbcae081a708dbe3d36786797c.gif

就是这样一个有趣的大模型,前段时间在推特、Youtube 等海外社交媒体平台得到爆炸式传播。比如推特大 V Dreaming Tulpa 一条由多位网红、模特照片生成的跳舞视频,小编写稿时单条视频已经有 5060 万的播放量!   

f3c3f87734e2a474d522081d01eccd97.jpeg

每一个模特跳舞的动作都十分自然,几乎可以乱真。而且看到他们从静止突然变成“妖娆多姿”,魔性又喜感。         

1d2a51fc9d2c3f8d99d6495cdc94137c.gif

海外老铁们一边赞不绝口,一边求体验入口。 

c1c0a087690addffc4c91deda9a001ec.png

然后,我们就看到各路大 V 也纷纷开始转发,各种花活应接不暇。

比如让梅球王摆各种 Pose;

5d5d07df82351e62feeed97a607376ac.gif

蒙娜丽莎魔性起舞;

fc84c90f54ae2d1e86d21a29f1031ac8.gif

还有各路明星也“惨遭毒手”……

e0fa77c019c559eee044615c1e7bf817.gif

其实,这个功能的背后,就是国内阿里巴巴自研的视频生成模型 Animate Anyone。

早在去年 11 月底,该研究论文便已经在海外爆火,相关视频播放量超 1 亿,Github 上的 Star 数超 1 万,还登上了 Reddit 社区 Stable Diffusion 频道热度第一。   

e3edd9a14dd49a89a4c29fe621bf1834.jpeg

Animate Anyone,显然已经成为目前最受欢迎的大模型项目之一。

看到大家分享的有趣视频,小编也忍不住做了体验。

其实体验的方法很简单,这个功能已经在这两天集成到阿里云通义千问 App 中了。下载通义千问 App,然后在输入框里输入“通义舞王”或“全民舞王”等关键词,就能直接进入体验页面。   

52762b87a718b0aff166079fd9a19e5f.jpeg

通义千问首批为用户提供了 10 多种热门舞蹈模板,包括科目三、蒙古舞、鬼步舞等等。   

bca7522f1507daecd971a30cb6f8230b.jpeg

小编就选最近很火的“科目三”吧,点击进入后需要按要求上传一张照片。这里小编找来一张游戏人物的卡通照,符合要求,点立即生成就可以了。   

a42bb5aa01b6db35946493fa8ba3f120.jpeg

然后会进入等待生成的界面,上面提示要 15 分钟,但实际等待没那么久,大概十分钟就可以了。视频生成后,你可以选择分享或下载、点赞等操作。  

1a2ae6a59e4c64b582ad177a5111e7ee.jpeg

大家看游戏里小姐姐跳舞的视频,神形兼备,关键是游戏角色穿的是拖沓的长袍,生成跳舞视频后需要对衣服的形态进行模拟,从结果来看,很自然,衣服没有出现穿帮。   

91c63c86cc232706a1b23be430a63914.gif

接着小编又用自己的真人照片测试了“鬼舞步”的跳舞模式,同样是很自然,很好地保留了原来的面部表情、身材比例、背景等特征。   

cd00a23b6db4fa668663f91a8cb33855.gif

可以看到,如果说有趣是 Animate Anyone 能火出圈的关键,那功能体验简单顺滑、效果自然,就是“火出圈”更底层的保证。

那么 Animate Anyone 是如何做到这一切的?在技术上有什么独到之处?

相信很多朋友都体验过用 AI 大模型生成文字、生成图片,效果都不错。但能生成视频,并且效果体验还好的,属实不多。

究其原因,还是因为视频生成太难了,特别是人物动作视频的生成:   

  • 形象一致性难保持;

  • 动作流畅度难把控;

  • 动态时序很难无瑕疵;

  • 推理等待时间长。


总之,人物是视频生成中的核心元素,也是核心难点,目前像谷歌、Meta、Runway 等巨头都在积极布局,解决这些困难,也确实诞生了一些方法来化解挑战。阿里研究团队的 Animate Anyone 算法,也就是在这种背景下研发出来的。

整体来看,Animate Anyone 算法从一致性、可控性、和稳定性三方面保证了视频的效果。

例如,它引入 ReferenceNet,用于捕捉和保留原图像信息,可高度还原人物、表情及服装细节;同时使用了一个高效的 Pose Guider 姿态引导器 ,保证了动作的精准可控;另外,还通过时序生成模块,有效保证视频帧间的连贯流畅性。

bf257f1c44da9f025d5229772a1c10df.jpeg

根据评测集结果显示,Animate Anyone 的性能表现是要显著优于国内外同类模型的。   

94d38e12a831be93ec5588e284ac7ed5.png

90d31557fcabe8e9411f4e23c0eef361.png

目前市面上类似的专注人的视频生成主要有两种:

一种是用人体 mask 来控制视频生成,人体会变形到 mask 的形状,无法保持照片中人的比例;

另一种是基于视频的重绘,只保留了人脸的信息,身体、服装、背景都不保留。

两种显然都有一定的瑕疵,而 Animate Anyone 是完整的保留了人脸、身材比例、服装细节、背景信息,能更好的还原图片信息。

而且,相比 Gen2、Pika 等文本生成视频的产品,Animate Anyone 可以更聚焦到人的视频生成。可以对生成的动作做精准控制,且在技术上生成的视频长度不受限制。

由此可见,Animate Anyone 在算法上确实具备相当的领先性,特别是在人物一致性和画面稳定性上表现极佳,一改当下很多视频生成画面局部扭曲、细节模糊、抖动跳帧等问题。   

并且,这项技术未来可能还会有更广泛的应用场景,包括各种图生视频的应用,还有在线零售、娱乐视频、影视、艺术创作和虚拟角色创建等等,想象空间很大。

而这些背后,显然是阿里大模型团队研发能力的又一次例证。

值得一提的是,最近他们还推出了一款一键试衣的模型,Outfit Anyone,仅仅依靠服饰的平铺图,就可以实现上下装的试穿。

177925c24745d2870465a598e9df2407.gif

从效果看,这个模型不仅能保证人物本身脸部的 ID,并且通过 3D 和 2D 技术的结合,确保模特姿势、身材等信息的还原,在此基础上,针对任意的单件上 / 下服饰、上和下组合套装等服饰进行直接试衣穿搭。

试想,这个技术如果应用普及了,以后我们在网上买衣服,岂不再也不用为合不合适发愁了?一键虚拟试衣,简直爽歪啊。

无疑,这又是阿里云通义大模型生态下的一次杰作。

要知道,阿里云早在 2019 你那就投入到了大模型的研究中,得益于阿里云领先的基础设施,以及深厚的大模型研发经验,他们在自研大模型及大模型生态的构建上很早就处于业界领先地位。   

从去年 4 月,“通义千问”开始邀请用户测试体验开始,通义大模型家族就马不停蹄地开启自我完善之路。

b253fe5fd01bad50ec067b7a7ab64633.jpeg

6 月,聚焦音视频内容的大模型产品“通义听悟”上线;

7 月,AI 绘画创作大模型通义万相开启定向邀测;

10 月,智能编码助手通义灵码、AI 阅读助手通义智文、个性化角色创作平台通义星尘、智能投研助手通义点金、智能客服通义晓蜜等一系列行业模型先后上线。

893aa8c11e53944c427dbbd2f1e7a84c.jpeg

短短几个月,通义大模型家族就不断丰富,并全面覆盖了文本、语音及图像等模态。

目前,通义千问 App 已经可提供文本对话、语音对话、翻译、PPT 大纲助手、小红书文案、视频生成等几十项功能。

而在技术能力上,阿里自研大模型已获得诸多权威机构的认可。

IDC 发布的 AI 大模型评估报告显示,通义千问在全部 11 项测试中获得通用能力、创新能力、服务能力、平台能力、生态合作等 6 项满分,名列前茅。

2e1213cb311a5177c937c38ec4c689c8.jpeg

12 月 22 日,国内首个官方“大模型标准符合性评测”结果公布,阿里云通义千问成为首批通过评测的四款国产大模型之一,在通用性、智能性等维度均达到国家相关标准要求。   

8c4afe90361546be83fcbd722585facb.jpeg

不仅如此,阿里云还通过开源研究成果的方式,积极促进大模型生态的繁荣。

他们是国内首个开源大模型的大型科技公司。截至目前,阿里云已开源通义千问 18 亿、70 亿、140 亿、720 亿参数的 4 款大语言模型,以及视觉理解 Qwen-VL、音频理解 Qwen-Audio 的 2 款多模态大模型,进一步降低了大模型初创公司的研发门槛。   

75bf27d39daa68774163df55d14430da.jpeg

阿里云甚至还推出了一站式大模型应用开发平台,阿里云百炼,开发者可在 5 分钟内开发一款大模型应用,几小时即可“炼”出一个企业专属模型。这么做,就是为了让开发生态把更多精力专注于应用创新。

b1881e912a3f7204510ed37b220bb46d.jpeg

值得一提的是,除了通义大模型,目前中国一半大模型都跑在阿里云上,像百川智能、智谱 AI、零一万物、昆仑万维等等,这主要得益于阿里云人工智能平台 PAI 提供的全球领先的训练性能和高效的算力资源。

拥有如此强大领先的基础设施算力底座、丰富且开源的产品、完善的工具链和智能化平台、以及开放创新的生态,通义大模型能够持续诞生出 Animate Anyone、Outfit Anyone 这样奇妙的应用并风靡全球,也就在意料之中了。   

而目前,大模型技术还在迅速发展,智能化时代也正快速到来,相信长在阿里云上的通义大模型会持续推动应用的落地和创新,推动大模型成熟应用规模化的进程,而我们的生活,也会因为这些应用而深刻改变。

054c894a50721a00e6b27367cebc3b29.jpeg

回复 【idea激活】即可获得idea的激活方式

回复 【Java】获取java相关的视频教程和资料

回复 【SpringCloud】获取SpringCloud相关多的学习资料

回复 【python】获取全套0基础Python知识手册

回复 【2020】获取2020java相关面试题教程

回复 【加群】即可加入终端研发部相关的技术交流群

阅读更多

用 Spring 的 BeanUtils 前,建议你先了解这几个坑!

lazy-mock ,一个生成后端模拟数据的懒人工具

在华为鸿蒙 OS 上尝鲜,我的第一个“hello world”,起飞!

字节跳动一面:i++ 是线程安全的吗?

一条 SQL 引发的事故,同事直接被开除!!

太扎心!排查阿里云 ECS 的 CPU 居然达100%

一款vue编写的功能强大的swagger-ui,有点秀(附开源地址)

相信自己,没有做不到的,只有想不到的

在这里获得的不仅仅是技术!

3f422f1675cdd1a96a0bf53e455fd865.png

379614dd791fcb6b4035e87c8065b63d.gif

喜欢就给个“在看142b3ffd496968174ee54cb0c3762278.gif 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值