使用合成数据进行自我提升的扩散模型

最新推荐文章于 2025-04-25 22:37:54 发布

hanscalZheng

最新推荐文章于 2025-04-25 22:37:54 发布

阅读量505

点赞数 5

分类专栏：大语言模型文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43145427/article/details/142302244

版权

大语言模型专栏收录该内容

146 篇文章

订阅专栏

文章提出了一种新的训练方法，称为使用合成数据自我改进的扩散模型（SIMS），旨在解决生成模型因使用合成数据训练而可能导致的模型自噬障碍（MAD）问题。通过在生成过程中引入负向引导，SIMS能够避免模型陷入合成数据循环导致的性能退化，提升模型生成质量，并在多个图像生成任务中取得了优异的表现。此外，SIMS还具备调节合成数据分布的能力，有助于减轻模型偏见并确保生成结果的公平性。

在这里插入图片描述

1 SIMS方法

扩散模型是一种生成模型，通过逐渐对训练数据进行噪声扩散，最终通过逆向建模的方式从噪声中恢复数据分布。具体来说，模型通过对数据实例逐步添加噪声，形成一个从真实数据到噪声数据的序列，并通过学习逆向过程生成新的数据样本。该模型在图像生成任务中表现出色，并逐渐成为生成模型的重要研究方向。

自我消耗循环及MAD

自我消耗循环（Self-consuming loop）是指生成模型在训练时使用了由先前模型生成的合成数据，这种循环可能导致模型逐渐偏离真实数据分布，最终陷入模型自噬障碍（Model Autophagy Disorder, MAD）。MAD是一种生成模型的退化现象，随着生成模型的迭代训练，使用合成数据训练的新模型会逐渐失去生成高质量、多样性数据的能力，导致模型性能下降和偏见的加剧。

SIMS方法

1)避免合成数据的累积：SIMS避免将真实数据和合成数据混合成一个训练集，因为这会导致模型分布与真实世界数据之间的偏差，进而降低模型质量并强化偏差。相反，SIMS利用合成数据在生成过程中提供负向指导，以使模型生成过程远离非理想的合成数据流形。
2)使用负向指导：通过训练一个辅助模型，该模型不仅使用来自基础模型的真实数据，还使用由基础模型生成的合成数据。然后可以结合这个辅助模型的得分函数与基础模型的得分函数，以反向推导出一个新的得分函数，这个新的得分函数更接近于真实的数据分布。
3)迭代训练：SIMS能够在不陷入模型自噬（MAD）的情况下，对自我生成的合成数据进行迭代训练。实验显示，在一定条件下，经过100代的迭代训练后，SIMS仍能保持模型性能不下降。
1. 控制分布：SIMS能够调整扩散模型生成的合成数据分布，以匹配任何期望的域内目标分布，这对于减少偏见和确保模型公平性具有重要意义，同时也能提高生成输出的质量。

在这里插入图片描述

2 结语

文章提出了一种利用合成数据自我改进的扩散模型（SIMS），通过负向引导避免模型自噬障碍，提升生成模型的性能和公平性。

论文题目： Self-Improving Diffusion Models with Synthetic Data

论文链接： https://arxiv.org/abs/2408.16333

PS: 欢迎大家扫码关注公众号^_，我们一起在AI的世界中探索前行，期待共同进步！
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。