人脸相关人工智能从入门到实战
文章平均质量分 95
原价299.9,限时99.9🔥火爆订阅中(五日后恢复原价)。本专栏从实战出发,重点关注 Deepfake 中的面部操纵方面,包括面部交换、面部重演、会说话的面部生成、面部属性编辑和伪造检测等在内的多种计算机视觉项目。
旋转的油纸伞
中山大学,博客专家认证,人工智能领域优质创作者。
理想是造福全人类。
展开
-
3D、扩散模型、GAN、StyleGAN、MAE.等【换脸方法汇总】
换脸是将一张脸的身份(肤色、面部皮肤、眉毛、眼睛、鼻子、嘴唇和嘴巴等)与另一张脸的非外观属性(表情、头部姿势、光照、图像分辨率、注释方向、头发、眼镜、耳朵、耳环、颈部和背景等非内部人脸区域)相结合,生成合成人脸。原创 2023-05-25 14:58:43 · 2471 阅读 · 28 评论 -
ReLU,Sigmoid,Tanh,softmax,pipeline【基础知识总结】
一、ReLU(Rectified Linear Activation Function)1、优点2、缺点3、补充1.Leaky ReLUs2.参数化修正线性单元(PReLU)3.随机纠正线性单元(RReLU)二、Sigmoid1、优点2、缺点三、Tanh(hyperbolic tangent)四、Sigmoid 和 Tanh 激活函数的局限性五、softmax(归一化指数函数)1、将预测结果转化为非负数2、各种预测结果概率之和等于13、例子六、pipeline原创 2022-11-27 17:35:39 · 3173 阅读 · 0 评论 -
上采样,下采样,卷积,反卷积,池化,反池化,双线性插值【基本概念分析】
然而,确实有一些缩放方法能够增加图像的信息,从而使得缩放后的图像质量超过原图质量的。在右边的等式中的字母f(Q11)、f(Q12)、f(Q21)、f(Q22)、x1、x2、x都是已知的,求出的f(x,y1)与f(x,y2)即为R1、R2的像素值。那么就从左上角到右下角,生成卷积之后的矩阵的大小是(5-3+1)*(5-3+1)的矩阵,生成之后的矩阵的元素值,是之前的两个矩阵对应元素的乘积之和;在右边的等式中的字母y1、y2、y都是已知的,f(x,y1)与f(x,y2)即为上一个式子中求出的R1、R2像素值。原创 2022-11-19 10:53:54 · 8070 阅读 · 0 评论 -
论文阅读方法与技巧【教授经验】
看Abstract写的怎么样需要讲清楚它解决什么问题?它的贡献是什么?然后它的效果好不好?这三个都要写,如果有些时候他没有把这三个东西讲出来的话,基本上这个文章后面可能也不怎么的。(做一些笔记记录到PPT上)原创 2022-10-26 19:22:12 · 1491 阅读 · 3 评论 -
【论文精读ICCV_2023】BlendFace: Re-designing Identity Encoders for Face-Swapping
【Paper】【Code】本文提出了一个专门用于换脸领域的身份编码器,能够解决ArcFace中存在的attribute biasesBlendFace 背后的关键思想是在混合图像上训练人脸识别模型,将其属性替换为其他图像的属性,以减轻人际偏差(例如发型)。(即一个身份的不同图像之间发型大概率是关联的,混合的目的是将该身份的人脸换到另一个背景中,从而换掉发型,去除了这种人际偏差。原创 2023-12-13 15:46:05 · 1678 阅读 · 0 评论 -
【BlendFac补充材料】Supplementary Material for BlendFace: Re-designing Identity Encoders for Face-Swapping
【Paper】【Code】【论文精读ICCV_2023】BlendFace: Re-designing Identity Encoders for Face-Swapping分析了架构增加了消融实验可视化不同人脸识别模型的相似度分布关于 FF++ 的更多比较。原创 2023-12-13 19:28:04 · 871 阅读 · 0 评论 -
【论文精读CVPR_2023】Face Transformer: Towards High Fidelity and Accurate Face Swapping
【Paper】【Code暂无】这项工作的贡献是三重的。首先\textit{首先}首先,我们设计了 Face-Transformer,这是一个创新网络,通过将 Transformer 引入到换脸任务中来实现精确的换脸。转换器学习源面部和目标面部之间的语义感知对应关系,这有助于从源面部到目标面部的特征顺利转移。据我们所知,这是第一个为换脸任务引入 Transformer 架构的工作。第二\textit{第二}第二。原创 2024-01-08 16:13:57 · 1138 阅读 · 0 评论 -
【论文精读WACV_2023】FaceOff: A Video-to-Video Face Swapping System
【Paper】【Code】【Project】论文贡献:(1)引入了V2V面部交换,这是一种新颖的面部交换任务,旨在交换源面部身份和表情,同时保留目标背景和姿势。(2) 提出 FaceOff:一种以自我监督方式训练的 V2V 换脸系统。FaceOff 通过合并两个不同的面部视频来生成连贯的视频。(3) 该方法在推理时直接作用于没见过的身份,无需任何微调。(4) 该方法不需要任何推理时间优化,推理时间不到一秒。(5)发布了V2VFaceSwap测试数据集,并为V2V换脸任务建立了基准。原创 2024-01-09 17:25:26 · 1054 阅读 · 0 评论 -
【StyleGAN论文精读CVPR_2019】A Style-Based Generator Architecture for Generative Adversarial Networks
【Paper】> PyTorch版【Code】> 官方TensorFlow版【Code】本篇博客是StyleGAN原始论文的中文版精读,帮助全面深入理解StyleGAN。首先StyleGAN灵感来自style transfer literature。改进是基于Progressive GAN(ABCDEFStyle mixing见3.1节。加噪声添加随机性见3.2节。原创 2023-08-05 13:23:45 · 432 阅读 · 4 评论 -
【StyleGAN补充材料】 A Style-Based Generator Architecture for Generative Adversarial Networks
【Paper】> PyTorch版【Code】> 官方TensorFlow版【Code】补充材料见StyleGAN正文精读在【StyleGAN论文精读CVPR_2019】A Style-Based Generator Architecture for Generative Adversarial Networks。原创 2023-08-05 15:32:55 · 266 阅读 · 0 评论 -
【StyleGAN2论文精读CVPR_2020】Analyzing and Improving the Image Quality of StyleGAN
【Paper】> 官方TensorFlow版【Code】> Pytorch版【Code】【Project】本篇博客是StyleGAN2论文的中文精读,望于大家全面理解StyleGAN2生成器有一定的帮助。首先,由于AdaIN操作会产生水滴状伪影,解决方案是重新设计normalization归一化步骤。详细见图2。原创 2023-08-06 15:52:00 · 603 阅读 · 0 评论 -
【论文精读WACV_2023】FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping
【Paper】【Code】The Adaptive Feature Fusion Attention (AFFA) Module 嵌入在解码器中,自适应地学习融合属性特征和以身份信息为条件的特征(生成可以门控特征的注意力masks。),而不需要任何额外的面部分割过程。【简单来说就是h′h⋅m1−m⋅zah′h⋅m1−m⋅zahhhzaz_azais a skip connection feature map,也就是说学习了m。原创 2023-10-16 10:30:40 · 219 阅读 · 2 评论 -
【SUPPLEMENTARY MATERIALS】MIGRATING FACE SWAP TO MOBILE DEVICES: A LIGHT-WEIGHT FRAMEWORK AND A SUPER
【Paper】【Code】补充材料有网络架构的详细设计,以及网络架构的消融实验和更多的定性结果,值得一读。原创 2023-09-25 16:15:32 · 298 阅读 · 10 评论 -
【论文精读ICME_2022】MIGRATING FACE SWAP TO MOBILE DEVICES: A LIGHTWEIGHT FRAMEWORK AND A SUPERVISED TRAIN
爱奇艺和南京大学的。【Paper】【Code】提出了MobileFSGAN,第一个可以在移动设备上运行的移动级人脸交换模型,将参数减少到1%,同时与最先进的方法相比实现了具有竞争力的性能。提出了FSTriplet,这是一个用于面部交换的大规模数据集,它提供了真实图像来稳定训练过程并增强生成图像的保真度。提出了多尺度梯度损失,保证有效的反向传播,加速和稳定训练过程。现有的面部交换方法严重依赖大规模网络来获得足够的能力来生成视觉上合理的结果,这限制了其在资源受限平台上的应用。原创 2023-09-25 11:12:46 · 370 阅读 · 0 评论 -
【Face Swapping综述】Quick Overview of Face Swap Deep Fakes
【Paper】本文是一篇换脸综述,如提所言Quick Overview of Face Swap Deep Fakes,介绍了换脸领域的大致发展历程,以及换脸的主要处理过程概述,重要的是提及了该领域目前遇到的挑战,总结以及未来的发展方向,有很大的参考意义。近年来,深度造假技术在其产生和检测方面发展迅速。这两个领域的研究人员在各自的轴心成就上都处于领先地位。在其他方法中,这些作品使用了自动编码器、生成式对抗网络或其他算法来创建不受算法或人眼检测的虚假内容。原创 2023-09-08 16:23:42 · 499 阅读 · 0 评论 -
【论文精读AAAI_2022】MobileFaceSwap: A Lightweight Framework for Video Face Swapping
【Paper】【Code】Identity Injection Network (IIN)包含很多Identity Injection Modules (IIM),而IIM用于weights modulation和weights prediction。原创 2023-09-02 20:35:23 · 894 阅读 · 0 评论 -
【论文精读CVPR_2022(Oral)】Smooth-Swap: A Simple Enhancement for Face-Swapping with Smoothness
【Paper】【Code】暂无>【Project】暂无首先,本文用来训练了一个身份嵌入器,以promoting a smoother space。与trained for a purely discriminative task的Arcface身份提取器特征不同。然后生成器基于的是noise conditional score network(NCSN++),也就是扩散模型!设计的损失函数就三个,非常简单。架构上面修改的两个。原创 2023-08-01 14:13:12 · 434 阅读 · 0 评论 -
【论文精读CVPR_2023】Collaborative Diffusion for Multi-Modal Face Generation and Editing
【Paper】【Code】【Project】首先需要明确的是这篇工作是一个Face Generation and Editing工作,其利用预训练的单模态扩散模型,而无需重新训练。其次,提出了由Unet实现的动态扩散器,它预测空间和时间变化的影响函数,在每个迭代步骤上有选择地增强或抑制给定模态的贡献。使用的是Stable Diffusion即LDM。扩散模型是最近兴起的一种强大的生成工具。原创 2023-07-30 11:15:00 · 565 阅读 · 0 评论 -
【论文精读CVPR_2023】DiffSwap: High-Fidelity and Controllable Face Swapping via 3D-Aware Masked Diffusion
【Paper】【Code】暂无>【Project】暂无。感觉效果一般,还有很大的改进空间。本文提出了一种基于扩散模型的高保真可控人脸交换框架DiffSwap。以往的工作依赖于精心设计的网络结构和损失函数来融合来自源人脸和目标人脸的信息,我们将人脸交换重新定义为一个有条件的修复任务,由一个强大的扩散模型执行,该模型由期望的人脸属性(如身份和landmarks).)指导。将扩散模型应用于人脸交换中的一个重要问题是,在训练过程中不能进行耗时的多步采样来获得生成的图像。原创 2023-07-28 20:36:35 · 688 阅读 · 0 评论 -
【CVPR_2023】StyleIPSB: Identity-Preserving Semantic Basis of StyleGAN for High Fidelity Face Swapping
【Paper】【Code】卖点是pore-level details and identify-preserving.首先是StyleIPSB Construction,其有三个关键点:a subspace ofWW+Wspace, identity-preserving, and representation ability.用到了StyleGAN与3DMM,利用Hessian矩阵来获得basisVVV,最后,将姿态、表情和光照基础组合为StyleIPSBVVpVeViVVp。原创 2023-07-27 12:00:00 · 225 阅读 · 0 评论 -
Supplementary Material for 3D-Aware Face Swapping
【Project】【Paper】【Slide】【Code】正文解析在【论文精读CVPR_2023】3D-Aware Face Swapping这份补充材料包含了主要手稿的更多细节。Sec. A提供了所提议的3dSwap的额外实验结果,Sec. B进一步讨论了我们的模式在防止DeepFake技术造成的负面后果方面所扮演的角色。原创 2023-07-26 16:56:51 · 386 阅读 · 0 评论 -
【论文精读CVPR_2023】3D-Aware Face Swapping
上海交通大学的【Project】【Paper】【Slide】【Code】主要解决large pose variance between the source and the target faces的问题。首先,将源脸和目标脸用psp编码器投影到the latent space of a 3D-aware generative model。其实就是经过pseudo-multi-view optimization strategy训练的类似StyleGAN的潜空间。(训练的是编码网络)原创 2023-07-26 11:09:15 · 1249 阅读 · 0 评论 -
【论文精读IEEE_2023_6】FlowFace++: Explicit Semantic Flow-supervised End-to-End Face Swapping
【论文精读AAAI_2023】FlowFace: Semantic Flow-guided Shape-aware Face Swapping这项工作提出了一种新颖的面部交换框架 FlowFace++,利用显式语义流监督和端到端架构来促进形状感知面部交换。具体来说,我们的工作预训练面部形状鉴别器来监督面部交换网络。鉴别器具有形状感知能力,并依靠语义流引导操作来显式计算目标面部和源面部之间的形状差异,从而优化面部交换网络以生成高度真实的结果。脸部交换网络是由预训练的脸部遮蔽自动编码器(MAE)、交叉注意原创 2023-07-22 11:28:46 · 400 阅读 · 0 评论 -
【论文精读AAAI_2023】FlowFace: Semantic Flow-guided Shape-aware Face Swapping
简介:在本工作中,我们提出了一个semantic flow-guided的两阶段框架,用于shape-aware的人脸交换,即FlowFace。与以往大多数专注于传递源内面部特征而忽略面部轮廓facial contours的方法不同,我们的FlowFace可以把它们都转换到一个目标脸,从而导致更真实的脸交换。方法:具体来说,我们的FlowFace由和组成。人脸重塑网络解决了源人脸和目标人脸的形状轮廓差异。原创 2023-07-16 15:44:02 · 566 阅读 · 0 评论 -
FaceForensics++数据集下载,FaceForensics++: Learning to Detect Manipulated Facial Images
获取方式:> GitHub链接获取填写表单[https://github.com/ondyari/FaceForensics](https://github.com/ondyari/FaceForensics)> 收到一个脚本。> 整个数据集的处理在:[https://github.com/ondyari/FaceForensics/blob/master/dataset/README.md](https://github.com/ondyari/FaceForensics/blob/master/d原创 2023-07-14 20:13:44 · 1725 阅读 · 7 评论 -
【论文精读ECCV_2022】StyleSwap: Style-Based Generator Empowers Robust Face Swapping
【paper】【project】【Poster】方法的整个Pipeline:1.下面一起来仔细的查看全文吧!由于其广泛的应用,人们对person-agnostic的面部交换进行了多次尝试。虽然现有的方法大多依赖于繁琐的网络和损失设计,但它们仍然在源和目标人脸之间的信息平衡中挣扎,并倾向于产生可见的伪影。在本文中,我们介绍了一个简洁而有效的框架——StyleSwap。我们的核心理念是利用的生成器来实现高保真和鲁棒的人脸切换,因此生成器的优势可以用于优化身份相似性。原创 2023-07-14 16:43:37 · 496 阅读 · 0 评论 -
SimSwap复现指引及代码分析【2023有更新】
我的环境!!!😚😚😚之后会遇到:还会遇到至此环境配置完毕!下面是所需要的checkpoint。至此环境准备结束。先试试环境是否有问题,图片是代码包中给的。我用的是512的checkpoint,无水印,a是源脸,b是目标脸。输出到./output/result_whole_swapsingle.jpg如图是可以成功换脸的:(为了方便查看将图像裁剪到了128x128)表示图像预处理,相应的改为也是一样。不加就是对已经面部对齐的图像进行简单的面部交换。加上就是无水印。交换一张图片中的所有面孔。原创 2023-06-09 10:11:13 · 1151 阅读 · 2 评论 -
SimSwap代码精析对应论文Pipeline【Identity Extractor以及loss的计算,Encoder,ID Injection Module,Decoder】
一张源脸图片换目标图像中置信度最高的人脸test_wholeimage_swapsingle.py代码如下(其实不同的Inference大体都差不多,先理解一个稍微简单一点的):代码中包含了很多注释,基本上每一行都有,足以帮助理解,而且基本上把所有的变量的维度都注释出来了。下面逐步进行分析。代码:运行:进行调试。并且我们可以计算不同图片人脸之间的相似性。主要代码是:其实计算latend_id的主要代码是:fs_model.py对应的代码:Encoder先看test_wholeimag原创 2023-06-12 16:03:12 · 324 阅读 · 0 评论 -
【论文精读CVPR_2022】High-resolution Face Swapping via Latent Semantics Disentanglement
首先:我们有源面xsx_sxs和目标面xtx_txt输入预训练的 pSp 编码器,反转获得它们的WW+W潜在码wsgshswsgshs和wtgthtwtgtht,其中gsgtg_s,g_tgsgt为结构部分,hshth_s,h_thsht为外观部分。(这里选前7个向量作为结构部分,其余为外观部分)其次:将源面xsx_sxs和目标面xtx_t。原创 2023-06-07 10:41:04 · 949 阅读 · 51 评论 -
【论文精读CVPR_2021】HifiFace: 3D Shape and Semantic Prior Guided High Fidelity Face Swapping
论文地址首先:分为四个模块编码器、解码器、3D形状感知身份提取器和SFF模块。编码器:输入是ItI_tIt,即提取目标脸的特征。输出低维度特征。3D 形状感知身份提取器:输入源脸图像和目标脸图像到3D人脸重建网络得到源脸的身份和目标脸的属性特征。然后输入源脸图像到人脸识别网络获取身份向量,然后将二者连接起来获取3D形状感知身份。解码器:接收编码器输出的低维度特征和3D形状感知身份(融合),输出原目标图像1/4大小的图片到SFF模块。SFF模块:接收解码器输出和编码器对应大小的图片。原创 2023-06-05 20:30:00 · 458 阅读 · 19 评论 -
【论文精读CVPR_2020(Oral)】FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping
AEI-Net首先提取源脸身份特征和多尺度的目标脸属性特征,然后输入级联的AAD ResBlk,也就是生成器来生成第一阶段的换脸图像YstYst。其中用到了对抗损失,也即是GAN的训练方法。然后是利用HEAR-Net第二阶段来来处理人脸的遮挡,idea来自目标图像与目标图像的重构图像(第一阶段生成的结果)直接的差异意味着异常发生的位置,也就是遮挡。四个关键点源脸的形状,目标的照明和图像分辨率,遮挡处理。缩写全拼AAD。原创 2023-06-03 19:27:12 · 1115 阅读 · 51 评论 -
【论文精读ACM_2020】SimSwap: An Efficient Framework For High Fidelity Face Swapping
和10Pipeline:首先:用一个身份提取模块(ArcFace)来提取源脸的身份向量,对应的目标脸输入编码器获得目标脸特征。其次:然后利用IIM的9个ID-Block来将身份向量嵌入目标脸特征中,使用的是AdaIN模块。然后输入解码器获得换脸结果。最后:通过一个鉴别器提取目标脸和结果脸的多层特征,然后对于高层的特征进行一个损失,得到弱特征匹配损失,进而保留目标脸的属性。(本文使用了多尺度鉴别器和对抗损失)简写全拼SimSwapIIMAdaIN。原创 2022-11-06 23:06:55 · 1185 阅读 · 0 评论 -
【补充精读】Supplement for “ Fine-Grained Face Swapping via Regional GAN Inversion”
这篇是的Supplement,我认为还是值得一读的,作者在这篇工作里面做了很多分析。如Loss Functions,Limitations and Discussion等。首先存在的问题有(a)重现模型不能很好的控制生成结果的眼神与目标脸的眼神一致,即注视方向。解决的办法可以是加一个注视方向的损失约束(b)照明illumination问题,只是将源脸的纹理复制过来了,并不能很好的保存目标脸的光泽情况,可能出现与背景等不符的情况。解决办法是解耦光照与纹理或者加一个光照损失约束。原创 2023-05-31 15:19:31 · 694 阅读 · 0 评论 -
【CVPR_2023论文精读】E4S: Fine-grained Face Swapping via Regional GAN Inversion
人脸交换是将源人脸的身份信息(如人脸成分的形状、纹理等)传递给给定的目标人脸,同时保留与身份无关的目标人脸属性信息(如表情、头部姿势、背景等)。源脸身份的保存(肤色、形状、纹理)具体是面部皮肤、眉毛、眼睛、鼻子、嘴唇和嘴巴如何正确处理面部遮挡(头发与目标脸相同)具体是头发、眼镜、耳朵、耳环、颈部和背景等非内部人脸区域身份保存此文身份保存用RGI方法来明确地解纠缠人脸成分的形状和纹理,而不是使用人脸识别模型或3DMMs。属性保存此文属性保存是用纹理编码和mask的一个混合来完成。缩写全拼。原创 2023-05-28 22:08:14 · 2876 阅读 · 24 评论 -
【GigaGAN论文精读】Scaling up GANs for Text-to-Image Synthesis
GigaGAN 的实现,是Adobe 的新 SOTA GAN,其证明GAN仍然是文本生成图像的可行选择之一。在最近的DALL·E 2、Imagen、Stable Diffusion等等出现之后,相较于diffusion model和AR模型,GANs已经不被大家青睐,作者想证明一下大规模GAN模型在大数据集上的表现依然可行(make GAN great again)。并给出了GAN模型的卖点:1.更快的生成速度 2.生成高分辨率图片 3.平滑的内插和样式混合。原创 2023-05-13 16:09:56 · 873 阅读 · 0 评论 -
【GigaGAN论文总结】Scaling up GANs for Text-to-Image Synthesis
提出卷积的局限,将注意力机制与卷积结合,简单加attention到卷积的backbone会导致训练崩溃,这里有一些trick,用L2-distance代替原来attention logits的点积。十亿参数GigaGAN 的实现,是Adobe 的新 SOTA GAN,其证明GAN仍然是文本生成图像的可行选择之一。(这可以将图像金字塔上的低分辨率图像特征注入中间层的高分辨率图像)冻结CLIP图像编码器,从中间层提取特征,并通过一个3 × 3 conv层的简单网络对其进行处理,以做出真实/虚假的预测。原创 2023-05-15 10:25:55 · 734 阅读 · 0 评论 -
【CVPR2022论文精读DiffFace】DiffFace: Diffusion-based Face Swapping with Facial Guidance
本文分享DiffFace,一种换脸的方法,在介绍全文的时候会在段末加入部分笔者的见解,希望对于论文的理解有一定的帮助。这是第一个将扩散模型应用于换脸任务的方法。在training stability,high fidelity和controllability方面都有一定的优势。在扩散模型训练时用了条件训练,采样时也用了条件引导采样,都是为了保存源脸的身份信息。目标脸的属性背景保存用的方法是target-preserving blending策略。扩散模型的训练和采样方法大多基于。原创 2023-05-25 12:04:30 · 1305 阅读 · 0 评论 -
数据集FFHQ和LSUN介绍【包含FFHQ1024,515,256,128分辨率图像获取方法】
FFHQ全称Flickr-Faces-High-Quality(Flickr-Faces-HQ),最初是作为生成式对抗网络(GAN)的基准创建的,也用于StyleGAN的训练数据集中,并由英伟达于2019年开源。CVPR_2019Flickr-Faces-HQ (FFHQ)其由 70,000 张分辨率为 1024×1024 的高质量 PNG 图像组成,在年龄、种族和图像背景方面包含相当大的差异。它对眼镜、太阳镜、帽子等配饰也有很好的覆盖。原创 2023-03-26 22:12:12 · 2495 阅读 · 0 评论 -
【CLIP速读篇】Contrastive Language-Image Pretraining
一言以蔽之:CLIP(对比语言-图像预训练)是一种在各种(图像、文本)对上训练的神经网络。可以用自然语言指示它在给定图像的情况下预测最相关的文本片段,而无需直接针对任务进行优化,类似于 GPT-2 和 3 的零样本功能。作者发现在不使用任何原始 1.28M 标记示例的情况下,CLIP 与原始 ResNet50 的性能相匹配,在 ImageNet 上“零样本”,克服了计算机视觉中的几个主要挑战。提出问题。原创 2023-04-13 16:26:38 · 722 阅读 · 3 评论 -
【VQ-VAE论文精读+代码实战】Neural Discrete Representation Learning
基于神经网络的,离散的表征学习本篇博客主要介绍VQVAE,将VQ的思想引入VAE中,在隐空间进行生成,代表工作如Stable Diffusion,DALLE和VQGAN。现在很多预训练的大模型都用到VQVAE。Vector Quantised Variational AutoEncoder (VQ-VAE)矢量量化变分自编码器。本篇博客首先梳理论文的关键点,之后另一篇博客分析VQVAE的代码。ELBO,全称为 Evidence Lower Bound,即证据下界。原创 2023-04-26 09:36:51 · 1467 阅读 · 3 评论