【NeurIPS2024】《应对在线持续学习中的合成数据污染》

f802c29b6d3ad0f9f06d6473f7d6435a.png

来源:专知
本文约1000字,建议阅读5分钟
我们的实验结果表明,受污染的数据集可能阻碍现有在线CL方法的训练效果。

4d355a6dbc6e036ef5dc82455b242c77.png

近年来,生成高保真真实感图像的能力取得了显著进展,特别是随着基于扩散模型(Diffusion-based Models)的技术发展。然而,人工智能生成图像(AI-generated images)的普及可能对机器学习社区带来尚未明确识别的副作用。同时,深度学习在计算机视觉领域的成功依赖于从互联网收集的大规模数据集。随着大量合成数据被添加到互联网上,未来研究人员可能难以收集到不含人工智能生成内容的“干净”数据集。

已有研究表明,当训练数据集中包含合成图像污染时,模型的性能可能会显著下降。在本文中,我们探索了数据集污染对在线持续学习(Online Continual Learning, CL)研究的潜在影响。我们的实验结果表明,受污染的数据集可能阻碍现有在线CL方法的训练效果。

为缓解合成图像对在线持续学习模型性能的负面影响,我们提出了一种新的方法:基于熵选择的真实-合成相似性最大化(Entropy Selection with Real-Synthetic Similarity Maximization, ESRM)。该方法的核心目标是在训练过程中减轻由合成图像污染导致的性能下降问题。实验结果表明,特别是在污染程度较高的情况下,我们的方法显著缓解了性能下降。

为了保证可复现性,我们的工作源码已公开,地址为:https://github.com/maorong-wang/ESRM。

b66d73247d616d2e94cd60fe20104041.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

86f1327cc56b129758e87ccea33dd64d.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值