数字人
文章平均质量分 84
数字人相关算法
咆哮的大叔
给儿子树立一个爱写博客的好榜样。
展开
-
DInet
adaat:空间变形,在人脸姿态检测里面有引用,在特征通道空间中进行仿射变换,【R,T,S】,实现错位图像生成,保证生成的嘴型姿态跟带预测嘴型帧的姿态一致。输入:随机5帧参考帧reference image,随机一张待生成的mask后的原图source image,source image对应的音频。c):refs:fintune 固定参考帧,为video.refs,给这连续5帧每一帧配固定的5帧参考帧。2):处理这5帧连续帧,:source_frames:连续5帧的crop_moth。原创 2024-05-08 11:43:10 · 482 阅读 · 0 评论 -
Wav2Lip原理以及训练
常规SyncNet:功能:音频和嘴唇同步实质:判断音频和唇形在某个共同参数空间下的相似性。网络结构:一种伪孪生网络结构,分别提取嘴形特征和音频特征,然后通过对比损失计算两者之间的距离。原创 2023-06-26 21:01:13 · 13775 阅读 · 16 评论