最近高粱seo发现ai的技术发展已经不像去年了,记得去年gpt刚推出,之后引发ai界海啸般的热度,百花齐放的ai技术层出不穷,各种功能的大模型不断得到推出,每半个月就有新技术出现,实际上这是ai技术横向发展期。
当时间来到2024年后,高粱seo觉得好像ai技术发展的脚步放慢了许多,不再像之前那样频繁推出新技术,ai技术横向发展已到了一定程度,不过高粱seo现在不少大公司开始转向ai技术纵向发展,ai技术不能光横向发展,那样的话很难落实到现实生活当中,也很难让普通人挣到钱,高粱seo认为一门ai技术要真正发展好,必须从应用层去发展,也就是纵向发展,结合现实需求去深入研究,让更多的普通人能应用到ai技术才行。
那么我们回到关于图片数字人音频驱动短视频的话题来,这是今天高粱seo想和大家一起探讨的主题。关注高粱seo公众号的ai短视频伙伴都应该知道,在之前的文章当中分享了好些关于音频驱动图片人物嘴型的ai短视频工具,虽然说有些看起来还不错,但是能真正达到人物嘴型,表情和动作都很自然的ai数字人工具,到目前为止还真没有。也就是说ai数字人音频驱动工具还没法真正应用到短视频当中。
不过高粱seo已经注意到微软这家公司已经开始在深入研究ai数字人音频驱动工具,并且已经得到了一些成果。这款ai工具名字就叫VASA-1,它能够将单人像照片通过语音音频驱动,最终生成超逼真的会说话的人脸视频。它通过精确的音频与唇部动作同步、丰富的面部表情和自然的头部动作,显著增强了生成视频的真实感和生动性。
目前研究成功已经发表了相关技术论文,并且公布了一些实际效果案例,这点跟sora的推出过程差不多,先是发布论文,后推出相关案例,可能离实际应用到生活当中,还需要一段时间才行。不管怎么样,一切都在进行当中,高粱seo也相信各位是非常期待这款ai数字人工具的。
那么下面高粱seo就先把几个案例放给大家看看,大家可以对比下现有的一些ai数字人工具,到底区别在哪里,是不是比现在的ai数字人技术更加先进,更加可靠,更加真实呢。经典案例效果如下:
,时长01:00
,时长00:15
,时长00:15
当你看到这几个案例视频的时候,从人物表情,音频和嘴型的同步角度去看以及头部运动来看,是不是非常逼真很自然呢?如果真正达到这种效果的话,高粱seo觉得已经打败99.99%的同类型ai数字人工具,这点跟sora推出效果一样,让不少ai短视频伙伴点赞的ai工具。不过高粱seo认为从这些ai工具的发展进度,可以看出来国内ai公司和国外ai公司的技术差别还是非常大的,国内ai公司都在模仿中割韭菜,国外ai公司都在搞深层技术研究。