一、为什么UNET模型可以用于去噪网络
下采样部分: 能够提取图像的深层次特征,这些特征往往包含图像的重要结构和信息,而噪声通常被视为不相关的随机信息。通过卷积层的逐层处理,噪声信息在特征提取过程中被逐渐削弱。
上采样部分: 利用上采样和卷积操作恢复图像的尺寸和细节。跳跃连接结构将编码器的特征图直接传递给解码器,使得解码器能够利用更多的信息来恢复图像的细节,同时避免信息丢失和模糊。
二、扩散模型中的UNET是一个条件去噪网络,怎么实现的
我们知道普通的UNET是一个单独的去噪网络,扩散模型中的UNET是一个条件去噪网络,那这个条件去噪网络是怎么实现的呢,答案就是time embedding,实现过程如下图所示,我们可以把这个过程理解为一个查表操作,根据输入t,按照PositionalEmbedding 查找对应特征向量,再经过线性和非线性变换,最终得到一个指示向量,目的是告诉去噪网络,我现在在做的是第t步的去噪。