狂补基础知识(基础数学\DDPM入门)【无标题】

高斯分布的概率密度函数,概率密度函数值是什么含义,举例说明

高斯分布(也称为正态分布)的概率密度函数(Probability Density Function, PDF)是用于描述随机变量在连续空间上各个取值点的概率密度的函数。其数学表达式如下:

f ( x ) = 1 2 π σ 2 ⋅ e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \cdot e^{-\frac{(x - \mu)^2}{2\sigma^2}} f(x)=2πσ2 1e2σ2(xμ)2

其中:

  • μ \mu μ 是分布的均值(Mean),它决定了分布的中心位置;
  • σ \sigma σ 是分布的标准差(Standard Deviation),它衡量了数据围绕均值分散的程度;
  • e e e 是自然对数的底数,约等于2.71828。
    其中 μ \mu μ 表示均值, σ \sigma σ 表示标准差,均值对应正态分布的中间位置。正态分布意思是95%的数据分布在均值周围2个标准差的范围内。上面公式在一定参数的情况下,输入变量 x,可以获得对应的概率密度。在使用之前需要对概率分布进行归一化,即曲线下面的面积之和为1,这样才能确保返回的概率密度在允许的取值范围内。

概率密度函数值的含义:

  • 对于任意给定的 x x x 值, f ( x ) f(x) f(x) 表示随机变量在 x x x 处单位长度(或单位体积,在多维情况下)内的概率密度;
  • 函数值的大小反映了在该点处随机变量取到 x x x 的相对可能性,也就是说,如果 f ( x ) f(x) f(x) 较大,则在 x x x附近的取值相对较为常见;
  • 函数的最大值位于均值 μ \mu μ处,此处的概率密度最大;
  • 随着离均值距离的增加,概率密度会按照指数规律递减;
  • 虽然 PDF 的值可以大于1,但 整个分布曲线下方的面积必须等于1,因为随机变量必然落在其所有可能取值的范围内,且整体概率为1。
    举例说明:
    假设有一个服从高斯分布的随机变量 X X X,其均值 μ = 50 \mu = 50 μ=50、标准差 σ = 5 \sigma = 5 σ=5。当我们计算 f ( 55 ) f(55) f(55)时,得到的结果是 X X X取值在 55 55 55附近的概率密度。如果 f ( 55 ) = 0.15 f(55) = 0.15 f(55)=0.15,这意味着在 X X X附近一小段宽度足够小的区间内(例如 55 ± ε 55 \pm \varepsilon 55±ε,其中 ε \varepsilon ε很小以至于可忽略这段区间之外的贡献),随机变量 X X X取值在这个小区间内的概率约为 0.15 × 区间长度 0.15 \times \text{区间长度} 0.15×区间长度。而由于是连续分布,这个“概率”严格来说应该是概率密度乘以一个无穷小的区间长度,但在实际应用中我们通常关注的是比较不同点的概率密度大小来判断哪个区域出现的可能性更大。

概率密度(Probability Density)是一个专门用于描述连续随机变量在其可能取值范围内各点处发生概率密集程度的概念。具体来说:

概率密度函数(Probability Density Function, PDF)

对于一个连续随机变量 X X X,若存在一个非负可积函数 f ( x ) f(x) f(x),使得对于任一实数 x x x (意思是连续随机变量X可以取x附近的连续值),随机变量 X X X取得值在区间 [ a , b ] [a, b] [a,b]内的概率可以通过对 f ( x ) f(x) f(x)在该区间上进行积分来计算:

P ( a ≤ X ≤ b ) = ∫ a b f ( x )   d x P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx P(aXb)=abf(x)dx

这里, f ( x ) f(x) f(x) 的值代表了在 x x x点处单位长度(或多维情况下单位体积)内的概率密度,即越大的概率密度意味着在该点附近随机变量取得相应值的可能性相对较大

概率与概率密度的区别:

  1. 定义对象不同

    • 概率是对随机事件发生可能性的度量,适用于离散随机变量或者连续随机变量所在区间。
    • 概率密度仅适用于连续随机变量,描述的是变量在连续空间中的分布情况。
  2. 取值及意义不同

    • 概率是一个明确的数值,取值范围在 [0, 1] 之间,表示某一事件发生的绝对可能性。
    • 概率密度函数的值可以大于1,但是对应区间上的概率通过积分之后仍然会在 [0, 1] 之间。单个点上的概率密度没有实际的概率意义,因为连续随机变量在任意一点的取值概率理论上为0
  3. 计算方法不同

    • 对于离散随机变量,可以直接计算某事件发生的概率,如 P ( X = x i ) P(X = x_i) P(X=xi)
    • 对于连续随机变量,无法计算单个点的概率,只能计算某个区间内的概率,即通过概率密度函数在该区间上的积分来得到。

总结来说,概率密度函数提供了连续随机变量在实数线上分布的详细图像,而概率则是这种分布最终导致的实际事件发生的可能性的量化。概率密度不能孤立地考虑,只有通过积分才能转换成有意义的概率值。

极大似然函数 怎么理解,一般有什么用处,举例说明

极大似然函数(Maximum Likelihood Function,简称MLF)是用来估计模型参数的一种统计方法,其基本思想是选择一组参数值,使得这组参数下所对应的模型能够最大化观测数据出现的概率或概率密度函数。简单来说,极大似然估计就是在已知数据的前提下,找到模型参数的最有可能生成这些数据的那个值。

理解极大似然函数可以从以下几个方面着手:

  1. 思想原则:极大似然估计依据的是“同一样本条件下,真实参数应使得观测数据出现的可能性最大”的原则。换句话说,如果我们的模型有一系列可能的参数值,我们选择使数据观测最为“合理”或者说“最有可能出现”的那一组参数值。

  2. 过程:首先根据模型构建似然函数,即在给定参数 θ \theta θ的情况下,观测到数据 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn的联合概率或概率密度函数。然后通过最大化这个似然函数,找出能使似然函数达到最大值的参数值 θ ^ \hat{\theta} θ^

  3. 应用:极大似然函数广泛应用于各种统计模型和机器学习算法中,包括但不限于:

    • 线性回归:在最小二乘法中,通过极大化似然函数可以导出最小化残差平方和的方法。
    • 逻辑回归:在分类问题中,极大化似然函数可以帮助我们找到最优的模型参数,使得模型输出与实际类别标签之间的差异(即损失函数)最小。
    • 参数估计:如在高斯分布中,使用极大似然估计来确定均值和方差参数,使其生成的数据最符合实际观测到的数据分布。

举例说明

假设我们收集了一组身高数据,想要判断这些数据是否来自于一个正态分布,并估算该正态分布的均值 μ \mu μ和标准差$\sigma )。

已知正态分布的概率密度函数(PDF)为:
f ( x ; μ , σ ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f(x; \mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) f(x;μ,σ)=2πσ2 1exp(2σ2(xμ)2)

对于给定的一组观测数据$x_1, x_2, …, x_n ),它们共同出现的联合概率(也就是似然函数)为:
L ( μ , σ ; x 1 , x 2 , . . . , x n ) = ∏ i = 1 n f ( x i ; μ , σ ) L(\mu, \sigma; x_1, x_2, ..., x_n) = \prod_{i=1}^{n} f(x_i; \mu, \sigma) L(μ,σ;x1,x2,...,xn)=i=1nf(xi;μ,σ)

极大似然估计的目标是找到 μ \mu μ σ \sigma σ的值,使得上述似然函数达到最大。但由于乘积操作可能导致计算困难,通常我们会取对数并转化为对数似然函数,然后再对其进行最大化:
ln ⁡ L ( μ , σ ; x 1 , x 2 , . . . , x n ) = ∑ i = 1 n ln ⁡ f ( x i ; μ , σ ) \ln L(\mu, \sigma; x_1, x_2, ..., x_n) = \sum_{i=1}^{n} \ln f(x_i; \mu, \sigma) lnL(μ,σ;x1,x2,...,xn)=i=1nlnf(xi;μ,σ)

最后,通过对这个对数似然函数分别对 μ \mu μ σ \sigma σ求偏导数,并令偏导数等于0,就可以得到极大似然估计下的 μ \mu μ σ \sigma σ的估计值。这样我们就得到了一组参数,这组参数下的正态分布最有可能生成观测到的这一组身高数据。

生成新的数据

使用Autoencoder生成新数据背后的想法是通过修改编码的数据(潜在向量),我们应该能够得到不同于输入的数据。

VAE

把要生成的图片想象成高维空间中的一个点,要做的事情 预测高维空间上的机率分布

P(X)
不同的高斯通过对应的weight叠合起来的

第m个高斯,已知μ 和σ,就可以sample出一个x
mixture的数目,给定有一些data x,预测 这一把高斯和对应的weight 是很容易的
EM elgron

在做classification
distribution描述比cluster描述要更好

VAE就是Gaussian mixture model的distributed representation的版本

从normal distribution 中sample一个Z(Z是一个vector,每一维代表一个attribute属性),Z有多穷多个可能,是continuous而不是discrete

latent space 得到z的时候,根据Z决定 μ 和σ是多少(Gaussian的mean跟variance)
μ 和σ(每个z对应的mean跟variance
)是 通过NN(非常powerful,生成的 μ 和σ可以得到很多样的分布)得到 的

从normal distribution 中sample Z,Z有多穷多个可能,对应无穷多个Gaussian

为什么sample Z的分布一定是Gaussian?不一定

Encoder:给定一个x,他会决定Z要从什么样的 mean跟variance 被sample出来

GAN(待看)

generator没有看过data base里面的图片,所以可以生成随机的,data base里面不存在的图片,discriminator看过data base里面的图片

diffusion model

sample 一个都是杂讯的图片,从normal distribution sample出来的vector,包含256*256的图像信息,排成一张图片的样子

denoise的network内部长什么样,等下将

雕像就在大理石里面,只要把杂讯去掉

去噪过程,把同一个denoise modle重复使用,但是处理不同噪声程度的图片,差异非常大,用同样的model效力不合适,于是除了要被denoise的图片以外,多加一个额外的输入:现在noise严重的程度

预测这张图片里面杂讯长什么样,图片-杂讯=去噪图片
为什么不直接通过一个网络,learn 原始图片 到 去噪图片
产生一张图片,和产生杂讯,难度不一样

产生杂讯,需要有杂讯的ground truth

forward process

对于一张干净图片,自己加噪音,产生噪声图片

对denoise predictor来说,训练资料就是这张加完杂讯后的图片 & 现在是第几次加杂讯

这张加完杂讯后的图片 & 现在是第几次加杂讯 作为network的输入,加入的杂讯 就是network应该要predict的输出

看到 这张加完杂讯后的图片 & 现在是第几次加杂讯,noise predictor的输出,就是这组输入对应的噪声

train下去,就结束了

文生图,怎么把文字考虑进来呢

stable difussion

  1. 一个好的 text encoder
  2. 生成模型:输入是 text encoder的特征向量和 杂讯 ,得到中间产物(图片的压缩版) 将 图片的压缩版
  3. 还原成正常图片

三个module分开训练

FID越小越好

处理 影像文字成对的资料中 没有看过的新的词汇

diffusion model的size(U-Net size,noise predictor的size),影响不大

评价影像生成模型的好坏
吧真实的和模型生成的图片,丢进pretrain好的影像分类的CNN,得到CNN的latent representation

两个Gaussian distribution的KL divergence是有公式解的

q(xxx)的mean已知是固定的,p(x)的mean是 denoise model的输出g(x_t)
x_0和x_t的某种interpolation

episode 6

加上一个noise z代表Gaussian的variance,直接取mean就是取proprobility density最大的那个输出
denoise的时候加一点随机性

直接输出几率最大的词,机器反复说一样的话,跳帧

training的时候防止overfitting要加dropout,test加dropout,结果起飞了

图片 2-d
语音 1-d
文字是discrete的,无法一直加noise变成一个完全的noise
文字运用diffusion model
加到word emmbeddding

diffusion model关键精神是auto regressive的优势加到 non autoregressive(一次到位)
还有其他方法,同样运用这个精神也取得了好的效果,并没有提到 maximum log likelihood 这些数学式,也得到了很好的结果

mask predictor

一次到位,换成n次到位
auto regressive的优势加到 non autoregressive(一次到位)
相同input对应不同output对于 non autoregressive(一次到位)来说很不合适
在另外一个方向上做autoregressive

一开始全是mask,丢到decoder里面产生一个结果,信心分数confidence比较低的部分(应该很多地方都低),盖住,重新mask重新生图
比较少的iteration就可以产生比较好的结果,一次保留一堆token

auto regressive就是一次生成一个token

论文讲解(DDPM学习资料,VAE(需要学EM算法,高斯混合模型什么的)-DDPM-DDIM

DDPM(还是爱李宏毅老师的声音)

齐备的公式推导过程:https://zhuanlan.zhihu.com/p/636776166(连重参数技巧都简明扼要讲了!)

简明清晰的推导!https://zhuanlan.zhihu.com/p/657136157
还没看的 https://zhuanlan.zhihu.com/p/624851115

学长推荐 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

DDIM

还没看https://zhuanlan.zhihu.com/p/627616358

LDM(stable diffusion)

Diffusion Models Beat GANs on Image Synthesis

KL散度,没看完,只记住公式了
Reparameterization trick(重参数化技巧)

【机器学习】白板推导系列(三十二) ~ 变分自编码器(VAE)
机器学习-白板推导系列(十)-EM算法(Expectation Maximization)

机器学习-白板推导系列(十二)-变分推断(Variational Inference)
变分推断(课程对应的知乎笔记)
机器学习-白板推导系列(十)-EM算法(Expectation Maximization)学习笔记
B站讲DDPM、DDIM,VAE看完李宏毅老师可以去看看

有点乱序喔
【深度学习】VAE(Variational Auto-Encoder)原理
使用(VAE)生成建模,理解可变自动编码器背后的数学原理(从直觉入手,不错!)
以下三条都是VAE介绍,看看哪个能吸收
https://zhuanlan.zhihu.com/p/351805989
https://zhuanlan.zhihu.com/p/497876029?utm_id=0
https://zhuanlan.zhihu.com/p/351805989
【深度学习】生成模型:VAE(自编码器)模型解析

【机器学习】EM算法详解
【机器学习】高斯混合模型详解
EM算法总结:从 ELBO + KL散度出发
oi-wiki数学相关

  • 12
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值