AI数字人
文章平均质量分 83
音视频开发之旅
同名公众号“音视频开发之旅”,一起学习成长
展开
-
音视频开发之旅(83)- 腾讯音乐开源高质量唇形同步模型--MuseTalk
。原创 2024-04-07 01:43:10 · 1352 阅读 · 2 评论 -
音视频开发之旅(80)- AI数字人-腾讯开源AniPortrait-音频驱动的肖像动画
这两天腾讯开源了其音频驱动的肖像视频的项目AniPortrait,它也实现了类似功能:音频驱动、参考视频表情动作驱动,或者通过预先生成的pose关键点视频来驱动。Reference Pose Image: 参考图像中人物姿势的一个标准表示,用于帮助系统理解参考帧中的人物姿势。在第二阶段,这些关键点将被用于生成最终的视频。7. Project: 将复杂的3D面部数据转换为2D平面上的点集,为下一步的视频生成做准备。Denoising Unet:用于去除编码的潜在表示中的噪声,确保生成的图像尽可能清晰。原创 2024-03-31 12:05:56 · 1227 阅读 · 0 评论 -
音视频开发之旅(77)- 训练可泛化AI数字人的中文数据集汇总
1、CMLR2、LRW-10003、其他数据集4、视频收集与处理与训练5、资料Wav2Lip实现的是视频人物根据输入音频生成与语音同步的人物唇形,使得生成的视频人物口型与输入语音同步。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频,还可以直接将动态的视频进行唇形转换,输出与目标语音匹配的视频。但是预训练模型采用的是LRS2数据集,对于中文唇音同步效果不够真实,开放的或者可申请比较大的中文数据集有CMLR和LRW-1000等。也可以自己收集数据集进行清洗处理,但时间会很长,成本比较高。原创 2024-03-22 08:50:38 · 1486 阅读 · 1 评论 -
音视频开发之旅(75)- AI数字人进阶--GeneFace++
目录1.效果展示和玩法场景2.GeneFace++原理学习3.数据集准备以及训练的过程5.遇到的问题与解决方案6.参考资料一、效果展示AI数字人进阶--GeneFace++(1)AI数字人进阶--GeneFace++(2)想象一下,一个专为你打造的AI数字人,不仅可以代表你在屏幕上出现,还能带来实实在在的商业价值。之前。原创 2024-03-14 01:33:40 · 3058 阅读 · 4 评论 -
音视频开发之旅(74)- AI数字人-实现图像无缝融合
通过先下采样再上采样,然后对上采样的,得到拉普拉斯金字塔,然后再和逐级上采样的图片进行相加即可恢复为原图, 即是无损的. 如果我们对图片中变化比较小的低频分量进行剔除,只保留更多细节的高频分量(即边缘轮廓),损失一部分不明显的信息,再进行恢复 可以实现图片压缩的效果.泊松融合可以将一个图像区域无缝地融合到另一个图像中,在保持图像渐变的前提下调整图像的像素值,不仅能够保留源图像的细节和结构,又能自然地适应目标图像的颜色和亮度,使得融合区域与周围环境看起来更自热协调。原创 2024-03-11 23:33:29 · 815 阅读 · 0 评论 -
自动裁剪人脸:简化你的数字人素材准备
在做数字人时,需要对采集的数据进行预处理,然后才能进行模型训练, 预处理常用的操作有:去背景 音频重采样 视频裁剪 音频特征提取等等,今天我们来分享一个自动化脚本: 对原图/视频进行人脸检测并根据目标尺寸以人脸为中心进行裁剪.获取视频的第一帧,进行人脸关键点检测,作为后续所有帧的人脸坐标(所以采集的视频人脸进来不要动作太大)图片的处理比较简单: 读取图片,进行人脸检测,根据un人脸中心点坐标和目标尺寸对原图进行裁剪。比如最近做的下面这个数字人效果,在训练阶段就用到了该脚本对视频进行自动裁剪。原创 2024-03-10 00:38:23 · 369 阅读 · 0 评论 -
音视频开发之旅(72)- AI数字人-照片说话之SadTalker
最后,将生成的3DMM系数映射到面部渲染器的三维关键点空间,以生成最终的视频。seamlessClone 驱动口型动的是256*256的人头区域,最终想输出full的视频,需要把上面的头部视频加上mmmmmmmmmmmmmmmmbn 原始图片根据mask和location进行合并成新的视频,这个可以优化,通过线程池进行加速,耗时可以从40s减少到20s。AI数字人目前做的最好的无疑是heygen,但是费用也是很贵,也有一些其他的商业应用,比如:微软小冰、腾讯智影、万兴播爆和硅基智能等。原创 2024-03-02 08:54:21 · 1047 阅读 · 0 评论