FLOW MATCHING FOR GENERATIVE MODELING 阅读笔记 Flow Matching (FM)是一种训练连续标准化流Continuous Normalizing Flow (CNF)的方法。
DDPM和EulerScheduler 如果是用Euler算法求解DDPM,就是解上面的ODE,要注意做scale。部分保证是原始训练的量级,其他部分是non-scaled的。一般的perturbation kernel有下面的形式。EDM论文的C.3.1证明上面的公式等于论文中。对应,所以t变成了实数,不再是计数count。为non-scaled变量,即。
Offset Noise 如果尝试用stable diffusion生成特别暗或特别亮的图像,它几乎总是生成平均值相对接近 0.5 的图像。Offset Noise正是为了解决这个问题的一个trick。
Denoising diffusion implicit models 阅读笔记2 Denoising diffusion probabilistic models (DDPMs)从马尔科夫链中采样生成样本,需要迭代多次,速度较慢。Denoising diffusion implicit models (DDIMs)的提出是为了在复用DDPM训练的网络的前提下,加速采样过程。加速采样的基本思路是,原本的生成过程是从T⋯1的序列逐步采样,加速时考虑从T⋯1的子序列采样,通过跳步的方式减少采样的步数。
Consistency Models 阅读笔记 Consistency models可以直接一步采样就生成图片,但是也允许进行多步采样来提高生成的质量。Consistency models可以从预训练的扩散模型蒸馏得到,也可以作为独立的生成模型从头训练得到。
Elucidating the Design Space of Diffusion-Based Generative Models 阅读笔记 文章使用模块化(modular)的思想,分别从采样、训练、score network设计三个方面分析和改进diffusion-based models。
Denoising diffusion implicit models 阅读笔记 Denoising diffusion probabilistic models (DDPMs)从马尔科夫链中采样生成样本,需要迭代多次,速度较慢。Denoising diffusion implicit models (DDIMs)的提出是为了加速采样过程,减少迭代的次数,并且要求DDIM可以复用DDPM训练的网络。
Proximal Policy Optimization(PPO)和文本生成 在文本生成的情况下,给一个prompt,生成完整的response,是一个episode。动作空间是vocabulary。每生成一个词是一个时间步。
SCORE-BASED GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS 阅读笔记 建立一个连续时间索引的扩散过程xtt0Tt∈0T,其满足x0∼p0是需要学习的目标数据分布,xT∼pT是便于采样的先验分布。dxfxtdtgtdw5w是标准Wiener过程,f⋅t是称为drift coefficient的向量函数,gt是称为diffusion coefficient的标量函数。通过从xT∼pT采样,并逆转上面的过程,我们可以得到x0∼p0,从而得到目标数据分布的样本。d。
在conda环境中安装tensorflow和cuda 不同版本的tensorflow官方提供的编译好的whl文件只对应一个cuda版本,这让tensorflow的安装很麻烦。我选择的方式是在conda中新建一个环境,安装需要的tensorflow和cuda。
Shap·E: Generating Conditional 3D Implicit Functions 阅读笔记 Shape·E是一个从图像或者文本生成3D模型的生成模型。Shape·E生成的是隐函数的参数。
阅读笔记 First Order Motion Model for Image Animation 文章解决的是图片动画的问题。假设有源图片和驱动视频,并且其中的物体是同一类的,文章的方法让源图片中的物体按照驱动视频中物体的动作而动。文章的方法只需要一个同类物体的视频集,不需要而外的标注。
import pytorch_lightning出现Segmentation fault (core dumped) import lightning Segmentation fault (core dumped)
论文笔记NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis NeRF使用神经网络来表示场景。给定一个场景,输入该场景稀疏的视角图片,NeRF可以合成该场景新的视角的图片。
Noise-contrastive estimation简介 Noise-contrastive estimation(NCE)是一种估计参数化统计模型参数的方法。基本思想是用非线性逻辑回归(nonlinear logistic regression)区分观测数据和一些人为产生的噪声数据。