强化学习微调文生图模型DPOK：Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

funNLPer

已于 2024-04-01 19:25:37 修改

阅读量1.2k

点赞数 2

分类专栏： AI算法文章标签： stable diffusion AIGC 人工智能

于 2023-12-09 22:38:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/orangerfun/article/details/134520423

版权

AI算法专栏收录该内容

26 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文提出DPOK算法，一种结合策略优化和KL正则化的在线强化学习框架，用于微调文生图扩散模型。DPOK解决了SFT导致的图像质量退化问题，通过实验表明在图文对齐和图像质量上优于SFT，并能缓解预训练模型的偏见。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

论文链接：DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models
代码：https://github.com/google-research/google-research/tree/master/dpok
关注公众号funNLPer分享有趣的算法知识

在之前我们已经了解过了DDPO: Training Diffusion Models with Reinforcement Learning，今天介绍一篇类似的论文DPOK

文章目录

1. Introduction
2. RL Fine-tuning Diffusion Models
- 2.1 REINFORCE
- 2.2 KL Regularization
3. SFT with KL Regularization
- 3.1 Supervised Learning with KL Regularization
- 3.2. Online RL vs. Supervised Fine-tuning
4. Experimental Evaluation

1. Introduction

最近扩散模型在文生图领域获得了很大的进步，但是当前的模型仍然存在一些问题，如：多目标物体组合能力有限，生成指定颜色数量的物体的能力仍然欠缺。

基于人类反馈进行模型的学习已经被证明能够提升文生图模型的效果，但是通过

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。