028_SSS_Fine-tuning Diffusion Models with Limited Data

Fine-tuning Diffusion Models with Limited Data

1. Introduction

从头训练一个Diffusion模型需要大量的数据和训练时间,而现有的基于预训练好的diffusion进行fine-tune的方法在小数据集上很容易overfit。本文提出了一种微调Diffusion模型来用于小数据集的方法,这种方法的主要思路是只微调U-Net中的attention部分,并结合本文提出的adapter来进行微调,称为Adapter-Augmented Attention Fine-tuning( A 3 F T A^3FT A3FT)。

2. Methodology

2.1 Naive fine-tuning

在这里插入图片描述

作者首先尝试了直接在小数据集上微调预训练好的Diffusion。可以看出naive fine-tuning在训练的初期就会过拟合。并且生成结果的质量和多样性也会受到很大影响。

2.2 Attention block fine-tuning

现有的大部分Diffusion模型都用了U-Net结构。根据前人对基于Transformer的文本模型等的微调工作的经验,作者提出只微调U-Net中的attention blocks,而residual blocks的参数则保持不变。这样微调的attention参数量只占模型总参数量的10.3%。

2.3 Time-aware adapter

在这里插入图片描述

同样是根据前人的经验,本文设计了adapter module来进一步提高微调的质量。adapter位于attention和其后的线性层之间。adapter包含两个部分。

Time-fusion module

结构如图所示,这部分需要额外引入1.7M参数量,约占预训练模型的 1.4%

Time-scaling module

结构如图所示,这部分需要额外引入0.5M参数量,约占预训练模型的 0.4%

2.4 Adapter-augmented attention fine-tuning

结合2.2和2.3的内容,作者提出了 A 3 F T A^3FT A3FT,不仅可以避免过拟合,还可以加速收敛。

3. Experiments

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值