【调研】虚拟人 & 深度神经渲染（neural rendering）

最新推荐文章于 2025-04-17 00:00:00 发布

fahaihappy

最新推荐文章于 2025-04-17 00:00:00 发布

阅读量2.3k

点赞数 1

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwNTQwODM2OA==&mid=2247485244&idx=1&sn=c7a989791958e11fe1b6f802a67195d5&chksm=97301623a0479f35463443ebd008ceb8d51719a4bc8660fcd647f16e4faa727cfb4cb71d39c0&scene=126&sessionid=0

版权

点击上方“AI搞事情”关注我们

据天眼查数据显示，我国现有“虚拟人”、“数字人”的相关企业28.8万余家。2016-2020年，5年新增注册企业增速复合增长率近60%，行业进入爆发期。

百度公司发布了数字人平台——百度智能云曦灵，通过百度智能云曦灵平台的开放，让每个人实现数字人自由。
字节跳动则推出了沉浸式虚拟社交平台Pixsoul，还全资入股了拥有虚拟偶像团体A-SOUL著作权的公司，并收购了VR创业公司Pico，布局AI虚拟交互的上下游。2022年1月，字节跳动又参与了杭州李未可科技有限公司的天使轮融资，独家投资了数千万元。
网易参与的虚拟人公司相关融资事件就有5起，包括虚拟形象技术公司Genies、元宇宙社交平台Imvu、打造虚拟交互式演唱会的直播公司Maestro、“微软小冰”母公司—北京红棉小冰科技有限公司以及虚拟人生态公司次世文化。*科大讯飞推出AI虚拟主播解决方案，包含：语音识别、语义理解、语音合成、虚拟形象驱动。
此外，阿里、腾讯、科大讯飞等互联网公司也在积极布局，在技术和产业链生态各方面竞速。

当前火爆的虚拟人越来越多的虚拟人正在加入并且开始影响人类的生活。毕业于清华大学的学霸华智冰，走在时尚尖端的Ayayi，混迹娱乐圈的洛天依，一夜爆红的柳夜熙，还有被认为是虚拟人技术天花板的财经AI主播N小黑等等。

虚拟人相通性和不同点，主要源自三个基本特征的“定位”差异，即——外观、行为和思想。这三个特征的背后是大量技术栈的支撑，涉及众多的领域，包括图形识别、视觉技术、3D建模、CG渲染、动作捕捉、人工智能、计算机语音技术、自然语言处理等等。

「外观：创建一副好看的“皮囊”」
从形象生成来说，用户会越来越希望他们所构建出来的“虚拟人”，在形象上显得更加逼真，比如发丝、衣服的纹理等很细致入微的特点都能完美呈现。
「行为：无限趋近人类的自然表达」
“虚拟人”的行动需要呈现得更加流畅和自然，而不是像机器人那样僵硬。主要包括了面部表情、肢体动作以及语言，涉及动画生成模块和语音生成模块。
「思想：赋予知识与灵魂」
一般来说，当一个虚拟人具有能够识别外界，并且能与人进行自然交互的能力，就可以理解为他/她被赋予了“思想”。

虚拟人创建方式

「真人驱动型（3D+CG）」
依靠3D建模生成一个静态模型，模型在绑定关键点之后，需要借助真人通过动作捕捉设备进行形体、眼神、动作等的捕捉，然后才能进行驱动和渲染。
「算法驱动型」
基于深度学习模型的三维场景表达和对应的神经渲染管线，自驱动学习模特说话时的唇动、表情、语音，以及姿态和动作等等。

传统渲染

「渲染」：是CG的最后一道工序，英文为Render，也有的把它称为着色，要把模型或者场景输出成图像文件、视频信号或者电影胶片；在设计、游戏、电影等各种场景中，都有着广泛的应用。里面包含了太多的数学、物理和计算机方面的知识，它描述了我们用计算机来虚拟化真实世界的基本逻辑。

传统渲染是通过对物理世界建模，以电脑计算的方式把模型从 3D 模型网格呈现出 2D 真实感高的图像，计算过程包含光线及辅助光线，材料的材质和纹理，相机相关设置等综合变量。计算机利用虚拟相机模拟人眼去感知世界，通过相机的移动模拟人的移动方式，把在不同空间中的画面投影在屏幕上。就如影像投在视网膜被神经感知一般。

常见建模渲染软件：

神经渲染

神经渲染（Neural Rendering）技术基于统计学习方法，利用各种深度神经网络进行图像合成，通过自动化的流程，让机器理解照片中的物体在三维空间中的实际形状和物理状态（材质、光照），实现图形渲染中建模和渲染的全部或部分的功能，能够节省大量从业人员的时间和精力。

神经渲染已成为计算机图形学领域最为迅猛的发展方向。在多种计算理论、方法和技术的融合下，这个新领域出现了非常多的有趣应用：包括图像内容编辑、场景合成、视角变化、人物编辑等等。可以预见，神经渲染未来将会在电影工业、虚拟/增强现实和智慧城市等领域中发挥越来越重要的作用。

神经渲染-NeRF

「NeRF」：2022年计算机视觉顶会论文，提出了一种神经辐射场（neural radiance field）的方法，利用5D（表示空间点的坐标位置（x,y,z）和视角方向(θ, ∅)）向量函数来表示连续场景。基于此，后续提出许多改进优化的方法。

不同于体素、网格、点云等形式表示三维场景，基于深度学习的神经渲染是一种隐式的三维场景表示，即辐射场（Radiance Fields），它其实一个映射函数F(θ), 输入是三维空间的坐标点X=(x,y,z)和观察角度d=(θ, ∅)，输出是体素密度δ，和颜色值C=(r, g, b)，体素密度只和空间位置有关，而颜色则与空间位置以及观察的视角都有关系。神经辐射场即通过神经网络（多层感知机）和数据拟合映射函数F(θ)。

NeRF训练过程需要输入从不同位置拍摄同一场景的图片，拍摄这些图片的相机位姿、相机内参，以及场景范围。若图像数据集缺少相机参数真值，作者便使用经典SfM重建解决方案COLMAP估计了需要的参数，当作真值使用。

在训练使用NeRF渲染新图片的过程中，先将这些位置输入MLP以产体素密度和RGB颜色值；取不同的位置，使用体积渲染技术将这些值合成为一张完整的图像；因为体积渲染函数是可微的，所以可以通过最小化上一步渲染合成的、真实图像之间的误差来训练优化NeRF场景表示。这样的一个NeRF训练完成后，就得到一个以多层感知机的权重表示的模型。一个模型只含有该场景的信息，不具有生成别的场景的图片的能力。

神经渲染-NeRF应用：数字化人体

1.「4D Facial Avatar」: 将3DMM和NeRF结合，实现了一个动态神经辐射场。输入一个单目视频，该方法能够实现人脸的位姿、表情编辑。

「Animatable」: 神经混合权重场来产生变形场，实现了人体建模。需要输入多视角视频。这个领域目前主要向SMPL靠近，就是给定一个规范空间，或者说template，然后从不同观测空间估计规范空间。

3.「AD-NeRF」：通过给定一段语音和源人脸，既可生成一段说话人视频。

4.「HeadNeRF」：可实时渲染高保真的头部图像,能直接控制生成图像的渲染姿态和各种语义属性。

虚拟人

2022年6月21日，由中国信通院云计算与大数据研究所、内容科技产业推进方阵、中国通信标准化协会TC602联合主办的“2022内容科技成果发布会”在线举行。会上，中国信通院正式公布了首批数字人系统基础能力的评测结果。

「腾讯云」
https://cloud.tencent.com/product/ivh 腾讯云小微整合了语音交互、自然语言理解、图像识别等AI能力，融合AI Lab前沿AI技术以及搜狗数字人团队丰富的业务模式，打造了基于新一代多模态人机交互技术的全新数智人产品矩阵，实现了从“数字人”到“数智人”的智能化升级。覆盖银行、资管、保险、教育、政务、传媒、文旅、运营商、交通出行等多个行业。

「火山引擎」
https://www.volcengine.com/product/Human-body，包括“播报型数字人”和“交互型数字人”两种类型。播报型数字人，即输入文本或语音，就可生成自然生动的数字人播报视频；交互数字人作为播报型数字人的形态升级，依托于火山语音长期积累的成熟语音交互技术，让数字人“善听”、“会说”、“能想”，与用户面对面实时交互。

「百度」
https://cloud.baidu.com/product/baidudigitalhuman.html 依托百度AI的全栈能力，百度智能云曦灵打造的数字人在面部表情、形体表达、语音表述、回答内容、肢体反应、情绪反馈等外在表现和交互效果上，都具备独特的行业领先性。应用：数字主播小C、AI手语主播、浦发银行小浦、文物交流中心文夭夭

「科大讯飞」
https://zhisheng.xunfei.cn/ 自2018年讯飞AI虚拟主播“康晓辉”亮相央视、全球首个多语种虚拟主播小晴发布至今，科大讯飞先后打造了面向音视频内容生产的一站式虚拟主播视频生产和编辑服务系统，面向全行业人机交互服务的AI虚拟人交互系统和终端，以及面向电商直播场景的AI虚拟人直播系统等多个行业垂直产品。

「蔚领时代」
https://pre.weilitech.cn/#/home 蔚领无界数字人平台依托蔚领时代全球领先的实时云渲染技术，可提供“超高清、低延时、高压缩码率”的虚拟数字人云服务。

「京东」
https://yanxi.jd.com/ 京东言犀多模态数字人定位为产业服务型数字人，核心优势主要体现在服务与交互上，可帮助企业提高效率和提升客户满意度。此外，除服务于京东自身全链条业务以外，京东言犀多模态数字人还在零售、金融、政务等多个场景大规模落地，助力不同行业实现服务的数智化转型。

「阿里云」
https://help.aliyun.com/document_detail/391242.htm 达摩院AI数字人产品拥有2D仿真人，3D虚拟人技术产品，支持淘宝直播虚拟主播，虚拟讲师等业务场景。技术覆盖虚拟人生成，驱动，交互领域。在高精度人脸人体重建，卡通捏脸，真人复刻，文本语音驱动，虚拟人交互对话等方向有业界领先的技术积累。赋能娱乐交互，智能教育，新零售，AR/VR/XR等行业。

「华为云」
https://www.huaweicloud.com/solution/onlinevideo/digitalproduction.html 华为云 MetaStudio 的数字人生成服务提供了风格化数字人、写实数字人和真人 3D 视频制作等服务，帮助伙伴和客户制作不同类型的数字人。其中风格化数字人可以用于数字人直播、虚拟社交等行业场景。