AI工具推荐｜从2D到3D，数字人产品如何摆脱抽象，走向生产力工具？

魔珐科技

已于 2025-01-07 10:28:13 修改

阅读量464

点赞数 1

文章标签：人工智能 3d AIGC 音视频

于 2024-05-25 15:41:50 首次发布

原文链接：https://zhuanlan.zhihu.com/p/697981302

版权

转载自科技盐究员

在如今AI大爆发的时代背景下，生成式AI作为时代热潮，时常占据各大媒体的新闻头条。形形色色的虚拟人开始渐渐代替真人，在直播、客服、代言人赛道上一骑绝尘。根据艾媒咨询数据预测，2025年中国虚拟人核心市场规模将要达到480亿元人民币。作为一块已经成长为无法被忽视的大蛋糕，虚拟人带给了我们什么？

什么是数字人？

2D数字人生成的技术原理比较简单，通过用户提供的素材及数据，在原有的视频基础上进行调整，本质上还是存在于平面二维空间的虚假“纸片人”。而3D虚拟人则是摆脱了二维空间，能够展示出三维世界的特性与优势。

数字人被发明最开始的需求无外乎是为了创作视频，在流媒和直播为王的年代，谁的视频更好看更有吸引力决定了流量的多少，从而也就决定了收入的多寡。而视频创作，则是分为两个部分，

一个是视频编辑，即主要精力着重于后期，但是忽略了其需要前期工作的准备；
另一个则是视频生成，前期即是后期，能够实现从无到有。

目前来看，在AI爆发的2024年，2D数字人和3D数字人都已经有了较为成熟的产品，2D数字人产品国内外都有了许多代表性的产品，例如国外的AI视频生成器Heygen，而3D数字人的产品则以国内的有言为代表。

技术原理

首先，两者最本源的“大脑”就不相同。通常来说，2D数字人基于机器学习和局部AIGC技术，通过用户的投喂，将已经存在的素材和录制的影像进行局部修改，以建筑举例的话，2D数字人产品则是需要准备制作视频的“地基”，然后再AI生成其他的内容，从而搭建好整体结构。也就是说，2D数字人产品本质上是将原来的视频进行“优化”和“局部调整”，如果没有来自前期的准备，就没有后面的整体结构，生成的这栋大楼就会不稳固，变成“危房”。
而3D数字人产品则是从地基到主体结构一起直接生成，将前期与后期直接包圆了。无需前期复杂的拍摄，只要会打字就可以直接文生3D内容，虚拟世界海量的3D素材库可以直接被调用，没有合意的素材也可以AI生成，对于企业来说，可以节省不少的时间和金钱成本。

【有言】一站式AIGC视频创作平台无需拍摄高质量视频一键生成

3D世界的灯光、场景、镜头等等我们在现实世界可以感知到的大多数都可以被有言轻松的还原，从而可以实现从0-1的内容创作。不过，在这个过程中，有言并没有将创作者的创意通过“一键式”这样的操作抹杀，而是将其与AIGC结合，让“大楼”的建设像中国基建，又快又有特色。

有言界面

内容可编辑性

对视频创作者来说，在视频制作过程和成片之后可能进行的修改、以及对内容的重复可编辑性有100%的掌握非常重要。2D数字人产品，如Heygen提供了视频模板、肖像编辑和文案编辑——但是场景一成不变，无法掌握镜头的运动，生成的视频中看不到镜头的调度，相当于只有一个定焦镜头，整个过程显得呆板无趣。

在Submit之前，人物的表情、动作及唇部是不会动的，不可预览，在前期无法对成片有一个较为准确的把握。

3D虚拟人产品则是提供了全、中、近、特四种镜头景别，且支持景别之间切换，让视频的画面更加生动有活力。无需拍摄的特点意味着有言已经将创作者可能需要控制的东西集成在了有言里面，3D的角色、场景、镜头以及需要用到的专业灯光，有言准备了大量的预设在素材库中，当然也支持AI生成新的素材，创作者在视频内容上可以尽情发挥创意，并且在切换人物或者镜头时，可以一键预览视频效果，在制作时就能对视频整体有一个很准确的把握。

有言创作界面

成本方面

当然，无论是对于企业还是个人，成本肯定是首先考虑的重中之重。

2D数字人工具由于需要事先准备视频素材，需要准备灯光、搭建场景和聘请人物，前期的拍摄成本较为高昂，后续在维护过程中，一旦相关人员离职，就需要全部推翻再来，重新调整。而3D虚拟人工具从一开始就不需要拍摄，前期的支出大大减少，成本甚至：

潜在风险

还有个问题不得不提——2D数字人工具换脸有侵犯肖像权的风险，个人隐私肖像泄露后，可能被用于伪造视频或图片，造成虚假信息传播。在日益注重隐私的现在，这种情况是所有企业和个人都不想看到的，不仅后续处理风险可能需要花费不少的成本，而且挽回被舆论流言蜚语的口碑更是要付出巨大的精力。

这一点上，由于3D虚拟人工具是AI生成，不需要考虑隐私权、肖像权可能造成的风险，AIGC的世界里AIGC说了算，海量的人物库各有千秋，不满意也可以AI生成，仅仅一个参数的改变就有可能生成成百上千种不同的人物形象，潜在风险大大降低。

Next，在应用场景上，以Heygen为代表的2D数字人产品提供的虚拟形象受限于固定半身或头部特写，应用场景十分有限。想象一下一个人坐在/站在视频中一动不动的滔滔不绝，直接梦回大学课堂。

而有言可以像现实世界的3维物理空间与场景及灯光交互，从PPT演讲、发布会到视频评测，都有丰富的模板和动态效果可以选择。除此之外，还可以Text to video，文生动画，让3D虚拟人按照场景需求动起来。除了AIGC以外，还可以手动加入定制动作。例如在介绍自己的时候向观众打招呼，在结尾的时候表示感谢，甚至可以在视频高潮处比一个耶✌️

人们常说，画面是创作者情感的表达，而有言的这个功能相对2D数字人产品，更能传递创作者的情绪、态度和情感，让人们觉得冰冷的AI工具增加了一点人情味。

有言编辑界面

其他特点

除了上述之外，再聊聊有言的一些其他有特色的功能。

如果说Vision Pro这款产品的发售代表苹果公司准备大力进军VR行业，那么可以直接生成所有VR/AR终端产品都可以直接观看的3D视频的有言或许是将VR/AR产品推向一个新高潮的最大助力。
无需前期拍摄，一站式视频生成、剪辑、包装，操作门槛低。相机、灯光等拍摄工具，PR、AE、达芬奇、Vegas等视频编辑工具，对于大多数人来说只是一个又一个的门槛，代表的是几十甚至上百小时的学习，相机拍摄-拷贝素材- PR剪辑-AE后期，多次切换工具和软件对个人用户来说会消耗大量的精力，而有言的一站式服务可以省去“没带内存卡的糟心”“切换软件的麻烦”和“软件卡死的崩溃”

Web端进行，更新及时。

在国内对数字人技术需求越发明显的今天，我们可以看到，以有言为代表的一些数字人智能服务商，提供了完整且接地气的产品链路，大大提高了企业在不同领域的数字化、AI化需求，为后续发展提供了支撑。

【有言】一站式AIGC视频创作平台无需拍摄高质量视频一键生成

聊点未来

2024年Sora的横空出世让大多数人直呼未来已来，但从到目前仍未对公众开放和生成的视频来看，Sora仍有许多缺陷，比如难以准确模拟复杂场景的物理原理，例如图中不依靠外力就飞起来的椅子，无法对我们身处的3维世界做出认知，而使用prompt来生成视频的方式对内容的可控性耶大大减少，很难被直接应用。

但在此背后的技术，以及有言作为国内优秀文生3D视频的代表在AIGC领域的深耕，让作为重度视频观看者的我，非常期待数字人与大语言模型结合。

AIGC的世界里没有限制，而数字人技术提供的真实的角色形象则是链接无限可能的AI世界和现实世界里用户的桥梁，在未来的视频中可以体会到现实中的人生百态，不过肯定是更加光怪陆离、天马行空的版本。

随着各类新媒体短视频平台的持续爆火，我们花费在视频上面的时间比过去多得多，社交媒体的使用增加正在推动对数字人的需求，市场的扩张离不开社媒、游戏、VR等领域的推动。目前苹果大力推行的Vision Pro被认为是苹果推动进入3D视频时代的信号，而像有言这样可以直接生成适配Vision Pro的3D视频平台或许已经提前锁定了第一排的门票。