AIGC–助力虚拟数字人行业飞速发展
AIGC(人工智能生成内容)以其强大的智能生成能力,正在引领一场前所未有的技术革命。在这场革命中,虚拟数字人作为AIGC的重要应用领域,正逐渐展现出其巨大的潜力和价值。
AIGC技术发展历程
在2020年之前,生成式AI的主流是利用GAA对抗生成网络,GAN由两个神经网络组成:生成器和判别器。生成器负责生成数据,判别器则负责判断数据是真实的还是生成的。通过这种对抗机制,GAN能够生成高质量的图像、音频和文本等数据。比较有名的如StyleGAN,由NVIDIA提出,可以其生成高质量、高分辨率图像,但是随着扩散模型的提出,对GAN的关注已经很少了,已经逐渐被淘汰。
从2020年DDPM的发表之后,生成式模型发展可谓是日新月异,从最开始的DDOM,只能实现无条件扩散,即DDPM可以用来生成图片,但是预先不能知道模型会生成什么图片,之后stable diffusion(多模态条件扩散)生图,增加了VAE模块,并改变了扩散模型中的UNet结构,在下采样的每一层增加了交叉注意力机制融合多模态信息实现有条件扩散,也进一步带火了多模态这一领域额的发展(目前也是主流发展方向,越来越多的模型开始追求多模态,尤其是LLM领域),代表模型是DALL·E 2 ,是由 OpenAI 开发的一种先进的生成模型,能够根据文本描述生成高质量的图像。引入了 CLIP(Contrastive Language–Image Pretraining)模型,用于更好地理解文本与图像之间的关系,实现用户根据提示词生成自己想要的图片,
随后,发展了扩散模型生成视频,增加了运动模块(motion module)保证视频桢间的连续性(通过视频数据集训练而来),将2D UNet膨胀为3DUNet,加入交叉注意力机制融合多模态信心,增加reference-unet保证每一帧生成的图和参考图像的相似性等等,可以说最近两年是AIGC飞速发展的时间,各类数字人生成模型层出不穷,广泛应用于虚拟助手、虚拟主播、教育培训、娱乐等领域。已经有许多互联网企业开发了数字人服务平台,包括硅语、科大讯飞,包括笔者所在单位也正在开发一款数字人平台
技术难点
AIGC生成数字人目前主要的技术难点集中在
- 表情自然度:实现与语音同步的微表情变化
- 动作流畅性:肢体运动与语音内容的协调配
- 唇形同步:精确匹配语音节奏
- 生成效率:实时生成的计算性能优化
重点突破方向
-
实现可实时交互的数字人平台,接入LLM、ARS、TTS等技术。难点在如何做到实时。
-
融合AR/VR虚拟现实技术
接下来,本人将会陆续分享本人实际部署过的数字人生成模型,包括论文方法讲解和部署过程,希望能给大家带来帮助,也希望各位在评论区交流学习