学术进展
文章平均质量分 86
关注学术界最新的paper,分析背后的底层原理
octopusAAA
这个作者很懒,什么都没留下…
展开
-
Face vid2vid论文和代码拆解
论文提出了一种新颖的神经网络模型,用于合成逼真的“会说话的头像”视频。该模型能够基于单张源图像和一段驱动视频来合成动态的头部视频,其中源图像包含了目标人物的外观,而驱动视频则决定了输出视频中的动作。该技术的一个显著特点是能够在不使用3D图形模型的情况下,实现从不同视角重新渲染头部视频,从而模拟出更加自然的面对面视频会议体验。原创 2024-05-13 21:22:39 · 431 阅读 · 0 评论 -
Diffusion Model 原理剖析
有一个forward Process, 给一个图像不断加噪声,直到看不出图像。有一个reverse Process,给一个噪声图,去做Denoise,直到出现图像。VAE 和Diffusion Model的区别是什么。VAE是通过Encoder和Decoder两个网络来实现Forward Process和reverse Process,将图像映射成一个latent representation。Diffusion通过加噪声实现VAE里的Encoder、通过Denoise实现Decoder。原创 2023-08-21 23:16:22 · 123 阅读 · 0 评论 -
如何理解图片处理中的attention
可以先借助这个可视化的图来理解。最开始输出的特征维度为 [C, T]。训练三组weight(Q,K,V), 维度分别为[A, C], 可以将特征压缩成三组vecotor 维度为[A,T]Q和K(转置)相乘得到attention matrix, 维度为[A,A]除以根号d之后(点积的数量级增长很大,会将 softmax 函数推向了梯度极小的区域[1])经过softmax之后再,乘以V,最终输出的维度还是[C, T]。原创 2024-02-26 22:20:24 · 718 阅读 · 0 评论 -
【口型生成学术进展】EMO-ali
整个算法被分为两个阶段:Frame Encoding和Diffusion Process。Frame Encoding: 将参考帧和运动帧叠加起来,输出VAE Encoder, 将输出的latent输入给一个referenceNet提取特征表示。Diffusion Process: 将语音,人脸区域,noisy,Head speed分别通过不同的方式注入到Backbone Network,将输出的特征表示通过VAE Decoder转换为图片。原创 2024-02-29 23:37:28 · 816 阅读 · 0 评论