SVD的diffusers版本代码解析
在svd的vae解码器中,1.将2d残差换成了3d残差,2.最终输出前加了一个3d卷积,时序维度上的1d卷积。# timesteps先过正弦编码(位置编码)层time_proj,再过一些线性层time_embedding,得到输入unet的时刻嵌入emb,类似的,额外约束条件也是先过正弦编码add_time_proj,再过一些线性层add_embedding,最后输出aug_emb会加到emb上,当然为了确保结果可以相加,time_embedding和add_time_proj的输出通道数是相同的。
复制链接