快手可灵团队最新开源项目火了:大叔实时变身少女,GitHub狂揽7.5K星

一水 发自 凹非寺
量子位 | 公众号 QbitAI

离大谱!!不看视频完整版谁知道里面的美少女竟是一位大叔。

好嘛,原来这是用了快手可灵团队的可控人像视频生成框架——LivePortrait。

LivePortrait开源即爆火,短短时间已在GitHub狂揽7.5K星标。

还引来HuggingFace首席战略官Thomas Wolf亲自体验:

c6263b0a635c4430f1d9e9ac94f56449.png

甚至目前仍在HuggingFace全部应用里排在趋势第一

088311a38eed630ae7c851887ca38470.png

所以,为啥LivePortrait能够疯狂引人关注?

还得从它让人眼前一亮的表现说起……

让表情“移花接木”

LivePortrait由快手可灵大模型团队开源,只需1张原图就能生成动态视频。

5f1280d3ccc04b348d25617f62b8ec64.png

先来看一组官方输出。

最简单开始,丢一张静态图像,LivePortrait可以让肖像眨眼、微笑或转头。

还可以施展“移花接木”,也就是将表情、动态等复制到其他人身上,还是不限风格(写实、油画、雕塑、3D渲染)和尺寸那种~

outside_default.png

当然了,这种“魔法”不限于单人,搞个全家福也不是不行。[doge]

outside_default.png

除了从静态图→视频,我们还可以让一个或多个视频实现“笑容增加术”。

比如提供一段宝宝没有表情的视频(最右侧),我们可以让宝宝按照参照视频wink或微笑。

8de4eb6e68c581e4a6d785f4dde3c3ac.gif

对了,不仅限于人物肖像,小猫小狗也能开始撒娇卖萌了。

98f31e08c1994c13863ed83b52c0ac2e.png

总之,LivePortrait可以实现人物表情精确控制,比如嘴角上扬的弧度,双眼放大程度都能开启自选。

举个栗子,下面这两个是不同参数设置下,人物眼睛大小的变化:

e99076bfdaf6f68c7862daf7d92e16e8.png
2af605a7a6871fdf9df991d8e9f3c30e.png

看来小说里的“三分凉薄,三分讥笑,四分漫不经心”也不是不能实现。[doge]

看完这些不知道你有没有心动,反正网友们整活儿的心是挡不住了。

比如配个灯光花式扮鬼脸,有恐怖片那味儿了:

8e4d1bdad0128cf5c702ecf293039f73.gif

再比如实时化身二刺猿:

outside_default.png

看完这些例子,接下来我们挖一挖背后的技术原理。

爆火开源框架

和当前主流基于扩散模型的方法不同,LivePortrait探索和扩展了基于隐式关键点的框架的潜力。

具体而言,LivePortrait不依赖于图像中明确可见的标记或特征点,而是通过学习数据集中的模式来隐式地推断出关键点的位置。

在此基础上,LivePortrait通过两个阶段从头开始训练模型。

先说第一阶段,LivePortrait对基于隐式点的框架(如Face Vid2vid),做了一系列改进。

82ee006a044911f8004de8773069aa65.png

这些改进包括高质量数据整理、混合图像和视频训练、升级网络架构、可扩展运动变换、地标引导的隐式关键点优化以及级联损失项的应用等。

有了这些,模型的泛化能力、表达能力和纹理质量都能进一步提升。

再说第二阶段,通过贴合模块和重定向模块的训练,模型能够更精确地处理面部表情的细节。

789ab9146e9d7c107d5cb2e36d659af1.png

贴合模块通过跨身份动作训练增强泛化性,估计表情变化并优化关键点。

眼部和嘴部重定向模块则分别处理眼部和嘴部的变形变化,通过独立的目标函数计算像素一致性和正则损失,提升模型在复杂表情处理上的灵活性和精确度。

那么,LivePortrait具体表现如何呢?

研究显示,在同身份驱动对比结果中,与已有方法相比,LivePortrait具有较好的生成质量和驱动精确度,可以捕捉驱动帧的眼部和嘴部细微表情,同时保有参考图片的纹理和身份。

ea219b8edc85ac4485fa4557ef5b354a.png
5d11e358f6f9c42fbe47bc8fe9fe44c4.png

且在跨身份驱动对比结果中同样表现较好,虽然在生成质量上略弱于基于扩散模型的方法AniPortrait。但与后者相比,LivePortrait具有极快的推理效率且需要较少的FLOPs。

a9a441d355d0b81f6bcdd71ed7425d21.png
1623a35fc0d6d6a34f3c10139412221d.png

总之,在RTX 4090 GPU上,LivePortrait的生成速度达到了每帧12.8毫秒,显著高于现有的扩散模型方法。

One More Thing

补一条官方最新预告:可灵AI即将在全球范围内推出其服务。

Sora还没来,可灵这回倒是先走出去了~

bdcc724c3836287028358945c1e35b6b.png

LivePortrait体验地址:
https://huggingface.co/spaces/KwaiVGI/LivePortrait
项目主页:
https://liveportrait.github.io
论文:
https://arxiv.org/abs/2407.03168
参考链接:
[1]https://x.com/Yokohara_h/status/1815440947976794574
[2]https://weibo.com/1727858283/5059185991221724
[3]https://x.com/Kling_ai/status/1815332322599973289
[4]https://x.com/toyxyz3/status/1811300657158320450
[5]https://x.com/thione/status/1815114364581748861

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

a549ca90d16112bd32c4e8ef4fecfd85.png

点这里👇关注我,记得标星哦~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值