虽然扩散模型在图像和音频等数据应用领域中取得了巨大的成功,但他们不一定能无缝地转移到其他模态上。在许多重要的领域,数据有特殊的结构。为了让扩散模型有效运作,必须考虑并处理这些特殊结构。比如,经典扩散模型所依赖的分数的函数仅在连续装据域才有定义,而对于离散型数据没有定义,或者数据位于低维流形式上时,就会出现问题。为了应对这些挑战,扩散模型必须以各种方式进行调整。
5.1 离散数据
大多数扩散模型都是针对连续数据域的,因为DDPM中使用的高斯噪动连续性数据,并不适合作为噪声加入离散数据;而SGM和ScoreSDE所要求的分函数也只在连续数据域中定义。分数函数的定义是数据概率密度函数的对数的导数,而离散数据则无法定义分数函数,因为离散数据没有概率密度函数。为了克服这一困难,一些人设计了可以生成离散数据的扩散模型。VQ-Difusion先用VQ-VAE将image 的特征空间离散化成 token,后将前向过程中加入的高斯噪声替换为在离散数据空间上的随机游走,或一个随机蔽(mask)操作。每个image 的 token 有+的概率保持之前的值,有K的概率从K个类别中进行重采样。利用前向转移核的马尔可夫性可以类似地解析计算出q(xt-1|x0,)。由于离散数据不能定义分数函数,VQ-Difusion 使用神经网络来直接预测原始样本对,然后通过匹配q(xt-1|x0,xt)和p(xt-1|x0,xt)进行训练。更多转移矩阵的选择可以参考D3PM,包括一致的转移核、具有吸收状态转移核、离散化高斯转移核或基于嵌入距离的转移核。
Campbell 等人提出了第一个离散扩散模型的连续时间框架,在连续时间的视角下,前向马尔可夫链的轨迹由每个时刻t的转移速率矩阵Rt(x,y)决定。简单来说,Rt是马尔可夫链转移概率关于时间的微分,给定了Rt就决定了前向马尔可夫链的转移矩阵。类似于ScoreSDE,Campbel 等人证明了存在逆向转移速率矩阵,由其导出的逆向连续时间马尔可夫链能够完全恢复原始数据分布。类似于分数函数在逆向SDE的作用,在此视角下唯一需要学习的就是逆向转移速率矩阵。Campbel等人还推导出了学习逆向转移速率矩阵和生成数据对数似然的关系式,并以此作为目标函数来学习逆向转移速率矩阵,从而提高模型的似然值。Campbel等人还提出了适用于离散数据的高效采样器,同时提供了关于样本分布和真实数据分布之间误差的理论分析。
从随机微分方程的视角看,Liu等人在“Learning Diffusion Bridges onConstrained Domains”中提出了可以学习分布于特定区域的扩散模型。根据随机分析领域中的一个重要定理--“Doob's h-transform”,只需适当调整 SDE的漂移项,就可以令SDE的解以“概率一”存在特定区域中。另外,还可以把这个区域设置为离散空间,这样经过调整的扩散模型就可以直接生成存在于该空间的离散变量了。所以扩散模型只需学习SDE中的漂移系数即可,Liu等人还设计了一种漂移系数的参数化方法,并基于E-M 算法设计了一种优化方法,并利用Girsanov定理将损失函数写为Lz损失。
5.2 具有不变性结构的数据
很多领域的数据具有不变性的结构。例如,图(Graph)具有置换不变性,即交换对图节点的标记顺序并不改变图本身的结构;而点云是平移和旋转不变的,因为平移和旋转并不改变点云中点的相对位置。在扩散模型中,这些不变性常常被忽略,这可能导致次优的性能。为了解决这个问题,一些人给扩散模型增强了处理数据不变性的能力。Niu 等人率先提出了用扩散模型生成具有置换不变性的图的方案,这种方法适用于无向无权图,即生成无向无权图的邻接矩阵。该模型的前向过程向邻接矩阵的上三角矩阵,加入独立的高斯噪声来保证加噪矩阵也是对称的,然后使用神经网络来拟合加嗳矩阵的分数的数(有良定义的)。类似地,采样过程也是在经典扩散模型的基础上将其改为对称的形式。Niu等人证明了如果生成过程中使用的分数模型是置换不变的,那么生成的样本也是置换不变的,并采用了称为EDP-GNN的置换等变图神经网络来估计分数函数,实验结果表明,使用EDP-GNN来参数化噪高得分模型可以生成置换不变的无向无权图。
GDss通过提出一个连续时间的图扩散过程,进一步拓展、改进了上述方法为了同时生成图的邻接矩阵和节点特征,GDSS通过一个随机微分方程系统对节点性集(X)和邻接矩阵(A)的联合分布进行同时建模。在前向过程中,原始数据(X,A)被一个随机微分方程系统联合扰动,生成过程使用逆向的随机微分方程系统来恢复数据结构。生成过程中需要估计联合布(Xt,At)的分数函数。与Score SDE类似,使用线性的漂移系数且扩散系数与数据无关。在扩散过程中(Xt,At)是互相关联的,GDSS使用偏分数函数可以对这种关联性进行建模,使其可以表达整个图的扩散过程。另外,有两种图神经网络来估计偏分数函数,其中使用信息传递操作和注意力机制来保证置换不变性。
同样,shi等人和xu等人使扩散模型能够产生对平移和旋转不变的分子构象。例如,xu等人说明,如果马尔可夫链以一个不变先验作为初分布且转移核等变的,那么其产生的边际分布也具有置换不变性。这可以用来在分子构象生成中证适当的数据不变性。只要我们设计的先验分布和转移核都有相应的不变性,那么我们就可以建立一个扩散模型来生成具有平移和旋转不变的分子构象。Xu等人选择了一种平移和旋转不变的噪声分布,并设计了一种具有相同不变性的信息传递神经网络。其中eij表示节点特征,dij表示节点距离,N(i)表示节点i的邻居节点,在这里包括距离小于阈值的所有节点。Фm、Фh、Фx是神经网络。在每层神经网络中,先计算相邻节点之间的信息传递mij,然后再根据mij更新节点特征hl+1和位置特征xl+1。经过L层网络后,使用为最后输出,预测加入的噪声。该网络的不变性可以通对整代法证明。如果是平移、旋转不变的且是等变的,那么就是平移、旋转不变的,进一步可推出是不变的、是等变的。那么最终的预测结果就是平移,旋转等变的,保证了逆向过程转移核也是等变的。