4.扩散模型的似然最大化(2)

1.逆向方差学习  

        通过优化逆向过程p\pi和前向过程q\pi的KL散度来优化生成样本的似然值。在扩散模型的经典框架中,逆向过程p\pi的初分布符合标准高斯分布,转移核是高斯转移核,所以能够学习的参数只有逆向过程中高斯转移核的期望与方差。但是在DDPM中假定了逆向马尔可夫链中的高斯转移核有固定的方差。为了让p\pi进一步匹配q\pi,许多方法建议对逆向方差也进行学习,以进一步减小 KL 散度,从而提高 VLB 和对数似然值。
        在 iDDPM中,Nichol和 Dhariwal提议,通过用某种形式的线性插值来参数化并学习逆向方差,使用一种混合目标对其进行训练,以得到更高的对数似然和更快的采样速度,且不损失样本质量。

2.精确的对数似然估计

        在前面两节都是把前向过程和逆向过程参数化为离散时间马尔的夫链。而本节讨论连续时间的情况,也就是假设前向过程和逆向过程都存在随机微方程的解。在连续时间中进行讨论有诸多好处。在连续时间上进行分析,得到的结更具一般性。经过适当的变换可以适用于各种形式的扩散模型,比如不论是DDPM是SGM 都可以视为 Score SDE的离散形式。另一方面,从连续时间出发可以帮助我们打开视野,从而设计更多具有优良性质的扩散模型,比如从离散时间马尔可夫出发可能很难设计出类似CLD的扩散模型。在ScoreSDE的公式中,样本是通过数值求解以下反向SDE产生的。

        随机微分方程数值求解的过程就是样本生成的过程,这里我们用{p_{\Theta }}^{sde}表示通过求解上述 SDE而产生的样本分布。同样,我们用{p_{\Theta }}^{ode}来表示求解这个ODE产生的样本分布。神经常微分方程和连续归一化流的理论表明,尽管计算成本很高,{p_{\Theta }}^{ode}可以被准确计算。对于{p_{\Theta }}^{sde},一些同时期的工作证明,经过适当的加权,存在一个可高效计算的变分下界,我们可以直接使用修改的损失函数来训练我们的扩散模型,从而最大化{p_{\Theta }}^{sde}。这也为通过去噪分数匹配、训练扩散模型提供了理论支撑。Song等人证明了,在一个特殊的加权函数(被称为“likelihood weighting”下,用于训练分数SDE的损失函数可以隐含地使数据上的对数似然最大化,即{p_{\Theta }}^{sde}最大化。由于概率流 ODE是神经ODE或连续归一化流的一个特例,我们可以使用这些领域的既定方法来准确计算log{p_{\Theta }}^{ode}
        神经ODE在原文中也是在每次更新参数时都需要求解一个ODE,为了减少使用上述公式直接最大化{p_{\Theta }}^{ode}带来的高额成本,Song等人提出了最大化{p_{\Theta }}^{sde}的变分下界,以此作为最大化{p_{\Theta }}^{ode}的代理,产生一类叫作“Score Flows”的扩散模型。在使用likelihood weighting训练Score Flows时,Song等人发现,损失函数的方差增大了。扩散模型使用蒙特卡罗采样法来近似公式,但是当权重采用likelihood weighting时,蒙特卡罗采样的结果有较大的方差。解决的方案是,使用重要性采样,在Iikelihood weighting的基础上,变换时间t在从0到T上的分布,可以得到任意方式加权的损失。Lu等人进一步改进了概率流 ODE的训练方法。他们提出不仅要最小化普通的分数匹配损失函数,还要优化其高阶的推广。他们证明了log{p_{\Theta }}^{ode}可以被一阶、二阶三阶的分数匹配误差所限制。在这个理论结果的基础上,Lu等人进一步提出了高效优化一阶、二阶、三阶的分数匹配误差的训练算法,以最小化高阶分数匹配损失,并且提高了{p_{\Theta }}^{ode}

非参数信息扩散模型(Non-parametric Information Diffusion Model)是一种在统计学习和信息传播领域中应用的方法,主要用于处理动态网络中的信息传播过程,特别是当数据分布未知或复杂,且我们不想假设特定的概率分布形式时。这种模型通常基于观察到的节点之间的交互行为,如信息的接收和转发,来推断信息传播的过程。 非参数意味着模型不需要预设固定参数的数量或结构,它能够自适应地从数据中学习网络的拓扑结构、节点影响力以及信息扩散的速度和模式。这种方法通常涉及到以下几个关键组件: 1. **观察数据**:包括节点间的联系(网络结构)、节点的状态变化(是否接收和传播信息)以及时间序列数据。 2. **无参数估计**:模型通常使用像邻接矩阵、度分布等网络统计特征,或者是基于图嵌入(如随机游走聚类)的方法来描述网络。 3. **传播过程建模**:利用似然函数或者潜在变量模型来模拟节点接收和传播信息的行为,可能涉及概率链规则、马尔可夫随机场(Markov Random Fields, MRF)或其他动态过程。 4. **无监督或半监督学习**:由于没有关于信息扩散的具体参数,这些模型往往是通过优化某种损失函数,比如最小化预测误差或者最大化信息扩散的连贯性。 5. **预测和解释**:一旦模型训练完成,可以用来预测新节点的信息接收行为,或者分析哪些节点在信息传播中扮演关键角色。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值