生成模型之Flow-Based model

Flow-Based Model

简介

​ Flow-Based对概率密度函数的直接建模,这使得它们在数据生成和推断方面具有优势,并且在潜在空间中的操作更加直观。但是,它们可能在处理复杂数据分布时受限,因为需要设计适合数据分布的逆变换

​ 与其他生成模型原理区别:

  • Flow-based模型:这种模型通过学习数据的概率密度函数来进行生成。它们学习了数据的分布,并利用这种分布来生成新的样本。
  • VAE:变分自编码器利用潜在变量的分布来建模数据。它通过编码器将输入数据映射到潜在空间中,并通过解码器从潜在空间中的采样重建输入数据。
  • GAN:生成对抗网络通过生成器生成假样本,同时使用鉴别器来区分真实和假的样本。生成器和鉴别器相互竞争,以提高生成器生成逼真样本的能力。

总览

​ 为了得到更好的generator,采用极大似然估计,最大化 l o g P G ( x ) log^{P_G(x)} logPG(x),也就是最小化 P d a t a P_{data} Pdata P G P_G PG两个分布之间的距离(KL散度)。

在这里插入图片描述

θ ∗ = a r g max ⁡ θ ∏ i = 1 m P G ( x i ; θ ) = a r g max ⁡ θ l o g ∏ i = 1 m P G ( x i ; θ ) = a r g max ⁡ θ ∑ i = 1 m l o g P G ( x i ; θ ) { x 1 , x 2 , . . . , x m } from ⁡ P d a t a ( x ) ≈ a r g max ⁡ θ E x ∼ P d a t a [ l o g P G ( x ; θ ) ] = a r g max ⁡ θ ∫ x P d a t a ( x ) l o g P G ( x ; θ ) d x − ∫ x P d a t a ( x ) l o g P d a t a ( x ) d x = a r g min ⁡ θ K L ( P d a t a ∣ ∣ P 0 ) \begin{aligned} \theta^{*} &=arg\max_{\theta}\prod_{i=1}^mP_G(x^i;\theta)=arg\max_{\theta}log\prod_{i=1}^mP_G(x^i;\theta) \\ &=arg\max_\theta\sum_{i=1}^mlogP_G(x^i;\theta)\quad\{x^1,x^2,...,x^m\}\operatorname{from}P_{data}(x) \\ &\approx arg\max_\theta E_{x\sim P_{data}}[logP_G(x;\theta)] \\ &=arg\max_\theta\int_xP_{data}(x)logP_G(x;\theta)dx-\int_xP_{data}(x)logP_{data}(x)dx \\ &=arg\min_{\theta}KL(P_{data}||P_{0}) \end{aligned} θ=argθmaxi=1mPG(xi;θ)=argθmaxlogi=1mPG(xi;θ)=argθmaxi=1mlogPG(xi;θ){x1,x2,...,xm}fromPdata(x)argθmaxExPdata[logPG(x;θ)]=argθmaxxPdata(x)logPG(x;θ)dxxPdata(x)logPdata(x)dx=argθminKL(Pdata∣∣P0)

数学基础

jacobian matrix

2023-12-04_19-10-02

determinant行列式

给出行列式值的几何形式——面积、体积

Change of variable theorem

在这里插入图片描述
p ( x ′ ) ∣ d e t [ Δ x 11 Δ x 21 Δ x 12 Δ x 22 ] ∣ = π ( z ′ ) Δ z 1 Δ z 2 x = f ( z ) p ( x ′ ) ∣ 1 Δ z 1 Δ z 2 d e t [ Δ x 11 Δ x 21 Δ x 12 Δ x 22 ] ∣ = π ( z ′ ) p ( x ′ ) ∣ d e t [ Δ x 11 / Δ z 1 Δ x 21 / Δ z 1 Δ x 12 / Δ z 2 Δ x 22 / Δ z 2 ] ∣ = π ( z ′ ) p ( x ′ ) ∣ det ⁡ [ ∂ x 1 / ∂ z 1 ∂ x 2 / ∂ z 1 ∂ x 1 / ∂ z 2 ∂ x 2 / ∂ z 2 ] ∣ = π ( z ′ ) p ( x ′ ) ∣ det ⁡ [ ∂ x 1 / ∂ z 1 ∂ x 1 / ∂ z 2 ∂ x 2 / ∂ z 1 ∂ x 2 / ∂ z 2 ] ∣ = π ( z ′ ) p ( x ′ ) ∣ det ⁡ ( J f ) ∣ = π ( z ′ ) p ( x ′ ) = π ( z ′ ) ∣ 1 det ⁡ ( J f ) ∣ p ( x ′ ) = π ( z ′ ) ∣ d e t ( J f − 1 ) ∣ \begin{aligned} &\left.p(x^{\prime})\left|det\begin{bmatrix}\Delta x_{11}&\Delta x_{21}\\\Delta x_{12}&\Delta x_{22}\end{bmatrix}\right.\right|=\pi(z^{\prime})\Delta z_{1}\Delta z_{2}\quad\mathrm{x=f(z)} \\ &\left.p(x^{\prime})\left|\frac{1}{\Delta z_{1}\Delta z_{2}}det\begin{bmatrix}\Delta x_{11}&\Delta x_{21}\\\Delta x_{12}&\Delta x_{22}\end{bmatrix}\right.\right|=\pi(z^{\prime}) \\ &\left.p(x^{\prime})\left|det\begin{bmatrix}\Delta x_{11}/\Delta z_{1}&\Delta x_{21}/\Delta z_{1}\\\Delta x_{12}/\Delta z_{2}&\Delta x_{22}/\Delta z_{2}\end{bmatrix}\right.\right|=\pi(z^{\prime}) \\ &\left.p(x')\left|\det\begin{bmatrix}\partial x_1/\partial z_1&\partial x_2/\partial z_1\\\partial x_1/\partial z_2&\partial x_2/\partial z_2\end{bmatrix}\right.\right|=\pi(z') \\ &\left.p(x^{\prime})\left|\det\begin{bmatrix}\partial x_1/\partial z_1&\partial x_1/\partial z_2\\\partial x_2/\partial z_1&\partial x_2/\partial z_2\end{bmatrix}\right.\right|=\pi(z^{\prime}) \\ &p(x^{\prime})|\det(J_{f})|=\pi(z^{\prime})\quad p(x^{\prime})=\pi(z^{\prime})\left|\frac{1}{\det(J_{f})}\right| \\ &p(x^{\prime})=\pi(z^{\prime})|det(J_{f^{-1}})| \end{aligned} p(x) det[Δx11Δx12Δx21Δx22] =π(z)Δz1Δz2x=f(z)p(x) Δz1Δz21det[Δx11Δx12Δx21Δx22] =π(z)p(x) det[Δx11z1Δx12z2Δx21z1Δx22z2] =π(z)p(x) det[x1/z1x1/z2x2/z1x2/z2] =π(z)p(x) det[x1/z1x2/z1x1/z2x2/z2] =π(z)p(x)det(Jf)=π(z)p(x)=π(z) det(Jf)1 p(x)=π(z)det(Jf1)

架构

​ 输入z和输出x的尺寸一样,区别于其他的生成模型(输入使用low resolution)。同时,因为我们需要使用 G − 1 G^{-1} G1 G G G矩阵需要可逆,方便求取。

在这里插入图片描述

2023-12-04_19-49-55

常见几种方法

coupling layer

很容易的计算 G G G的数值

NICE: Non-linear Independent Components Estimation

Density estimation using Real NVP

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

采用1*1卷积进行channel shuffle

Glow: Generative Flow with Invertible 1x1 Convolutions

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Parallel WaveNet: Fast High-Fidelity Speech Synthesis

WaveGlow: A Flow-based Generative Network for Speech Synthesis

在这里插入图片描述


参考视频:

Flow-based Generative Model

  • 27
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
事件驱动的视觉流是一种在视觉科学和计算机视觉中常用的方法,用于处理和分析图像和视频中的事件信息。事件驱动的视觉流基于事件的产生和传播,以实现对感兴趣区域(ROI)的高效处理。 事件驱动的视觉流包括两个关键组成部分:事件生成和事件传播。事件生成指的是根据图像或视频的低级特征(例如边缘、角点、兴趣点)检测和提取事件区域。事件传播则是通过对事件区域的追踪和关联来生成高级特征,以达到对事件的理解和分析的目的。 事件驱动的视觉流在许多应用中发挥着重要作用。例如,在目标跟踪中,通过检测和跟踪事件区域,可以实现对目标的准确定位和追踪。在行人检测中,可以通过检测和提取行人的外观特征来识别和跟踪行人。在视觉监控中,可以通过检测和分析视频中的异常事件来提供安全警报和预警。 事件驱动的视觉流具有许多优点。首先,它能够实现对感兴趣区域的快速和有效处理,避免了对整个图像或视频进行全局处理的不必要计算。其次,它能够提取和分析感兴趣区域的高级特征,以实现对事件的详细理解和分析。最后,它具有较强的实时性和适应性,可以灵活地应对不同环境和场景下的视觉任务。 总而言之,事件驱动的视觉流是一种重要的图像和视频处理方法,可以实现对感兴趣区域的高效处理和分析。它在目标跟踪、行人检测、异常事件检测等许多应用中发挥着重要作用,并具有快速、准确和灵活适应不同场景的优势。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Miracle Fan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值