![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AIGC
文章平均质量分 87
音视频开发之旅
同名公众号“音视频开发之旅”,一起学习成长
展开
-
音视频开发之旅(83)- 腾讯音乐开源高质量唇形同步模型--MuseTalk
。原创 2024-04-07 01:43:10 · 940 阅读 · 2 评论 -
音视频开发之旅(80)- AI数字人-腾讯开源AniPortrait-音频驱动的肖像动画
这两天腾讯开源了其音频驱动的肖像视频的项目AniPortrait,它也实现了类似功能:音频驱动、参考视频表情动作驱动,或者通过预先生成的pose关键点视频来驱动。Reference Pose Image: 参考图像中人物姿势的一个标准表示,用于帮助系统理解参考帧中的人物姿势。在第二阶段,这些关键点将被用于生成最终的视频。7. Project: 将复杂的3D面部数据转换为2D平面上的点集,为下一步的视频生成做准备。Denoising Unet:用于去除编码的潜在表示中的噪声,确保生成的图像尽可能清晰。原创 2024-03-31 12:05:56 · 913 阅读 · 0 评论 -
音视频开发之旅(77)- 训练可泛化AI数字人的中文数据集汇总
1、CMLR2、LRW-10003、其他数据集4、视频收集与处理与训练5、资料Wav2Lip实现的是视频人物根据输入音频生成与语音同步的人物唇形,使得生成的视频人物口型与输入语音同步。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频,还可以直接将动态的视频进行唇形转换,输出与目标语音匹配的视频。但是预训练模型采用的是LRS2数据集,对于中文唇音同步效果不够真实,开放的或者可申请比较大的中文数据集有CMLR和LRW-1000等。也可以自己收集数据集进行清洗处理,但时间会很长,成本比较高。原创 2024-03-22 08:50:38 · 1031 阅读 · 0 评论 -
音视频开发之旅(76)- 图片抠图换背景-MODNet
专注于预测图像中的细节,特别是边缘区域,一边产生更精准的分割效果。它利用了低分辨率分支的输出,对该输出进行上采样(即增加分辨率)以及结合下采样后的原始图像来获取更清晰的边缘分割。该分支也有一个辅助模块Skp Link,它将网络早期层的特征传递到后面的层,因为早期层通常包含更多的原始信息,这样做更有助于恢复细节。,通过对图片的卷积缩小图像尺寸,预测大致的语义信息,即图像中哪些区域是人物。该网络用来预测显著性区域(可以简单理解为人像,但不局限于人像,比如动物前景也没问题),以便从图像中分离出前后景。原创 2024-03-15 15:40:55 · 534 阅读 · 0 评论 -
音视频开发之旅(75)- AI数字人进阶--GeneFace++
目录1.效果展示和玩法场景2.GeneFace++原理学习3.数据集准备以及训练的过程5.遇到的问题与解决方案6.参考资料一、效果展示AI数字人进阶--GeneFace++(1)AI数字人进阶--GeneFace++(2)想象一下,一个专为你打造的AI数字人,不仅可以代表你在屏幕上出现,还能带来实实在在的商业价值。之前。原创 2024-03-14 01:33:40 · 2317 阅读 · 1 评论 -
音视频开发之旅(74)- AI数字人-实现图像无缝融合
通过先下采样再上采样,然后对上采样的,得到拉普拉斯金字塔,然后再和逐级上采样的图片进行相加即可恢复为原图, 即是无损的. 如果我们对图片中变化比较小的低频分量进行剔除,只保留更多细节的高频分量(即边缘轮廓),损失一部分不明显的信息,再进行恢复 可以实现图片压缩的效果.泊松融合可以将一个图像区域无缝地融合到另一个图像中,在保持图像渐变的前提下调整图像的像素值,不仅能够保留源图像的细节和结构,又能自然地适应目标图像的颜色和亮度,使得融合区域与周围环境看起来更自热协调。原创 2024-03-11 23:33:29 · 647 阅读 · 0 评论 -
自动裁剪人脸:简化你的数字人素材准备
在做数字人时,需要对采集的数据进行预处理,然后才能进行模型训练, 预处理常用的操作有:去背景 音频重采样 视频裁剪 音频特征提取等等,今天我们来分享一个自动化脚本: 对原图/视频进行人脸检测并根据目标尺寸以人脸为中心进行裁剪.获取视频的第一帧,进行人脸关键点检测,作为后续所有帧的人脸坐标(所以采集的视频人脸进来不要动作太大)图片的处理比较简单: 读取图片,进行人脸检测,根据un人脸中心点坐标和目标尺寸对原图进行裁剪。比如最近做的下面这个数字人效果,在训练阶段就用到了该脚本对视频进行自动裁剪。原创 2024-03-10 00:38:23 · 298 阅读 · 0 评论 -
音视频开发之旅(72)- AI数字人-照片说话之SadTalker
最后,将生成的3DMM系数映射到面部渲染器的三维关键点空间,以生成最终的视频。seamlessClone 驱动口型动的是256*256的人头区域,最终想输出full的视频,需要把上面的头部视频加上mmmmmmmmmmmmmmmmbn 原始图片根据mask和location进行合并成新的视频,这个可以优化,通过线程池进行加速,耗时可以从40s减少到20s。AI数字人目前做的最好的无疑是heygen,但是费用也是很贵,也有一些其他的商业应用,比如:微软小冰、腾讯智影、万兴播爆和硅基智能等。原创 2024-03-02 08:54:21 · 854 阅读 · 0 评论 -
音视频开发之旅(71)- 人脸修复画质增强之GFPGAN
它由一个U-Net模块和一个预训练的人脸GAN模型组成。GFP-GAN中为了保证人脸变清晰同时保持真实性,有四个loss1. “Reconstruction Loss” 使用预训练的 VGG-19 网络来完成分辨率的增强2. “Adversarial Loss” 使用 StyleGAN2 中类似的方法来生成逼真的纹理;3. “Facial Component Loss” 为了让面部细节真实,使用辨别器单独生成和应用面部区块的补丁,特别处理了眼睛、嘴巴等局部细节;原创 2024-02-27 13:52:45 · 1478 阅读 · 0 评论 -
音视频开发之旅(70)- 人脸修复画质增强之CodeFormer
见https://github.com/sczhou/CodeFormer Readme。原创 2024-02-26 08:36:29 · 1222 阅读 · 0 评论 -
音视频开发之旅(69)-SD图生图
SD UNet 中的所有参数被冻结,并克隆一份(trainable copy)到 ControlNet. 这些 trainable copy 通过一个外部条件向量(external condition vector)进行训练.下图从整体上说明了 ControlNet 和 Stable Diffusion 如何在推理过程(采样)中协同工作。原创 2024-02-25 22:53:20 · 763 阅读 · 0 评论 -
音视频开发之旅(68)-SD文生图
Low-Rank Adaptation of Large Language Models,冻结预训练好的模型权重参数,然后在每个Transformer(Transforme就是GPT的那个T)块里注入可训练的层,可以理解为大模型的一个小模型。LoRA模型可以应用于各种不同的领域和用途,比如:角色lora、风格lora和服装lora等。:这个是一个比较有意思的参数,通过随机种子生成一张高斯噪声图片,通过迭代步数不断的进行去噪,而提示词引导系数直接决定了生成的图片受prompt影响的程度,一般设置为6-7.原创 2024-02-24 13:58:09 · 994 阅读 · 0 评论