但,选择太多了,咋知道哪个适合自己呢?总不能“我+困难=放弃”,对吧?
不可! 作为宠粉狂魔的我,不可能让大家面临如此窘境!
所以我果断出手!
为大家一次性把之前分享过的数字人相关整合包,做个盘点,包含实现的效果,需要的配置,生成的时间等等,让大家一口气看完目前开源数字人到底哪家强,一起选择最好的挖掘机!
数字人火火火!
要说AI圈到底啥最火,那好像、也许、可能、大概、估计就是数字人了。
AI绘画的发布者,Stability AI经常传出即将倒闭。国内外大模型的巨头们,更是已经卷成了一锅粥。现在很多大模型的接口调用,已经卷成了白菜价,1块钱就可以生成几本红楼梦,这还咋赚钱呢?!
然鹅,数字人在AI圈,那可是实实在在可能带来巨大收益!咱们直接举个栗子:今年4月中旬,京东刘强东的数字人“采销东哥”亮相京东的直播间,不仅复刻了刘强东的语速、口音,习惯性动作也一模一样。
在讲话时偶尔搓动手指,强调某件事时会配合更大幅度的手部动作,还有时不时地点头等。围观网友表示,都不太能看得出这个东哥竟然是数字人!
这场首秀不到1小时,直播间观看量就超过了2000万,整场直播累计成交额超5000万。
在这场直播大获成功之后,今年618大促期间,京东又发起了一场“总裁数字人直播”活动。格力、海信、LG、名创优品、洁丽雅石、科沃斯、vivo、三星等企业高管“组团”化身数字人下场直播。
京东方面披露的数据显示,截至目前,言犀数字人已累计服务品牌超5000家,带动GMV超百亿。
这样巨大的收益,让很多人都开始关注数字人。要实现这样的效果,目前还是价值不菲,但AI技术持续在进步,开源领域产生的数字人也越来越强了!
接下来,就让我来给大家盘点那些超强的开源数字人~
开源数字人哪家强
数字人技术,这个曾经只在科幻电影中出现的概念,如今正一步步走进我们的现实生活。随着AI技术的飞速发展,开源数字人技术的竞争愈发激烈,各大厂纷纷亮出自家的王牌产品。
接下来,我们一起来看下各大开源数字人的效果,将会基本按照技术进步的先后顺序来进行盘点,大家也可以一目了然的看到技术在逐渐进步!
①Wav2lip:Wav2Lip算法是一种基于深度学习的语音驱动面部动画生成算法,是最早期数字人运用的技术,该算法的核心思想是将语音信号中的信息映射到面部动画参数中,从而生成逼真的面部动画。
- 生成案例:以下是使用Wav2Lip生成的数字人案例,可以看到其实只有嘴唇在活动,数字人的成熟度相对较差。
- 配置要求:Wav2Lip相对不太吃机器性能,只需要有4G小显存即可运行;生成1个1分钟左右的数字人视频,需要处理5~15分钟。
②SadTalk:SadTalker是西安交通大学开源的一个项目,它通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。
-
生成案例:以下是使用SadTalker生成的数字人案例,效果相对Wav2Lip有一些进步,不再是只有嘴唇在动,而是头部有了一些动作。但仔细看在边缘部分会有错位的情况。
-
配置要求:因为SadTalker生成的数字人效果好了一些,因此对机器配置的要求也有所提高,大概需要有6G显存的电脑可以流畅运行,显存小于6G或者使用CPU都会比较慢。生成1个1分钟左右的数字人视频,需要处理10~20分钟。
③MuseTalk:MuseTalk是腾讯推出的一款数字人项目,支持实时音频驱动的唇部同步数字人,MuseTalk的核心技术能根据音频信号自动调整数字人物的面部图像,确保唇形与音频内容高度一致,只需输入音频,你的数字角色就能实现完美的口型同步。
-
生成案例:以下是使用MuseTalk生成的数字人案例,效果相对SadTalker又有了一些进步,头部脸部动作更加自然,边缘部分的错位也有所缓解。但嘴唇动画方面,还是有些粗糙。
-
配置要求:使用MuseTalk大概需要有6G显存的电脑可以流畅运行,生成1个1分钟左右的数字人视频,需要处理10~20分钟,跟SadTalker差不多。
④Halo: Hallo是一款由百度联手复旦大学、苏黎世联邦理工学院和南京大学共同研发的数字人项目,在音频驱动的肖像动画生成方面取得了令人瞩目的进展。它利用先进的AI技术,根据语音输入生成逼真且动态的肖像图像视频。这种技术通过分析语音输入,同步生成人像的面部动作,包括嘴唇、表情和头部姿势,最终呈现出效果惊艳的数字人。
-
生成案例:以下是使用Hallo生成的数字人案例,无论是画面的清晰度、头部动作多样性、面部表情精细度方面,Hallo生成的数字人都相对于前面几个要好了很多。
-
配置要求:Hallo生成的数字人效果虽然好,但真的,它非常吃机器性能,据我的评测,需要10G显存以上的显卡才能跑得动。而且,生成1个1分钟左右的数字人视频,需要处理30~40分钟。
⑤LivePortrait: LivePortrait是快手开源了一个让人惊艳的数字人项目,它的神奇之处在于,它不仅能够精确控制眼睛的注视方向和嘴唇的开合动作,还能处理多个人物肖像的无缝拼接。
-
生成案例:以下是使用LivePortrait生成的数字人案例,可以看到数字人过渡非常平滑自然,不会产生任何突兀的边界效果。
-
-
配置要求:相比Hallo,LivePortrait生成的数字人效果不但好,而且,对于配置要求也降低了很多,据我的评测,需要8G显存的显卡即可流畅运行,6G显存也可运行。生成1个1分钟左右的数字人视频,需要处理10~20分钟。
⑥EchoMimic: 传统的数字人技术,要么依赖音频驱动,要么依赖面部关键点驱动,各有利弊。而EchoMimic则巧妙地结合了这两种驱动方式,通过音频和面部关键点的双重训练,实现了更加逼真、自然的动态肖像生成。
- 生成案例:以下是使用EchoMimic生成的数字人案例,数字人相当平滑自然。
- 配置要求:EchoMimic生成的数字人,基本看不出是假人,可以说是相当真实了。而且它对于配置要求也没有增加,8G显存的显卡即可流畅运行。不过生成时长略微增加了,生成1个1分钟左右的数字人视频,大概需要处理15~30分钟。
结语
数字人技术的发展,正在不断突破我们的想象。我知道大家喜欢看图,刚好我图很多哈哈,直接来一个技术进步的对比图:
随着AI技术的不断推出,让我们能体验到越来越强的开源AI数字人,如果你对数字人技术充满好奇,如果你想亲手体验数字人带来的震撼效果,那么现在就是最好的时机。
让我们一起见证数字人技术的魅力和无限可能(一起将“危险”送到全世界去吧)!
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓