自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (2)
  • 收藏
  • 关注

原创 Face vid2vid论文和代码拆解

论文提出了一种新颖的神经网络模型,用于合成逼真的“会说话的头像”视频。该模型能够基于单张源图像和一段驱动视频来合成动态的头部视频,其中源图像包含了目标人物的外观,而驱动视频则决定了输出视频中的动作。该技术的一个显著特点是能够在不使用3D图形模型的情况下,实现从不同视角重新渲染头部视频,从而模拟出更加自然的面对面视频会议体验。

2024-05-13 21:22:39 235

原创 【口型生成学术进展】EMO-ali

整个算法被分为两个阶段:Frame Encoding和Diffusion Process。Frame Encoding: 将参考帧和运动帧叠加起来,输出VAE Encoder, 将输出的latent输入给一个referenceNet提取特征表示。Diffusion Process: 将语音,人脸区域,noisy,Head speed分别通过不同的方式注入到Backbone Network,将输出的特征表示通过VAE Decoder转换为图片。

2024-02-29 23:37:28 801

原创 如何理解图片处理中的attention

可以先借助这个可视化的图来理解。最开始输出的特征维度为 [C, T]。训练三组weight(Q,K,V), 维度分别为[A, C], 可以将特征压缩成三组vecotor 维度为[A,T]Q和K(转置)相乘得到attention matrix, 维度为[A,A]除以根号d之后(点积的数量级增长很大,会将 softmax 函数推向了梯度极小的区域[1])经过softmax之后再,乘以V,最终输出的维度还是[C, T]。

2024-02-26 22:20:24 694

原创 Diffusion Model 原理剖析

有一个forward Process, 给一个图像不断加噪声,直到看不出图像。有一个reverse Process,给一个噪声图,去做Denoise,直到出现图像。VAE 和Diffusion Model的区别是什么。VAE是通过Encoder和Decoder两个网络来实现Forward Process和reverse Process,将图像映射成一个latent representation。Diffusion通过加噪声实现VAE里的Encoder、通过Denoise实现Decoder。

2023-08-21 23:16:22 113

原创 音视频直播推流

1. 下载的Nginx下载后,将其解压到一个目录中,例如 D:\LiveTest\nginx 1.7.11.3 Gryphon。一定要记得是名字带Gryphon后缀的,原因详见参考12. 配置 Nginx双击D:\LiveTest\nginx 1.7.11.3 Gryphon\nginx.exe,一闪而过在浏览器地址栏输入网址出现以下页面说明启动成功在安装完成后,你需要配置 Nginx 来使用 RTMP 模块。

2023-05-23 22:33:22 398

nginx配置文件参考

nginx配置文件参考

2023-05-23

solution to WirelessCommunication

This is the solution to Wireless Communication

2014-10-12

Behrouz Forouzan Data Communications and Networking Solution Manual

附件为Behrouz Forouzan所写的Data Communications and Networking的课后练习题的答案,只有单数部分。 对于学习这本书的同学,应该比较有用。

2014-10-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除