强化学习微调文生图模型DPOK:Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

本文提出DPOK算法,一种结合策略优化和KL正则化的在线强化学习框架,用于微调文生图扩散模型。DPOK解决了SFT导致的图像质量退化问题,通过实验表明在图文对齐和图像质量上优于SFT,并能缓解预训练模型的偏见。
摘要由CSDN通过智能技术生成

在这里插入图片描述

在之前我们已经了解过了DDPO: Training Diffusion Models with Reinforcement Learning,今天介绍一篇类似的论文DPOK

1. Introduction

最近扩散模型在文生图领域获得了很大的进步,但是当前的模型仍然存在一些问题,如:多目标物体组合能力有限,生成指定颜色数量的物体的能力仍然欠缺。

基于人类反馈进行模型的学习已经被证明能够提升文生图模型的效果,但是通过

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值