ECCV 2024 | 用扩散模型diffusion生成训练数据(6篇论文汇总)

注:欢迎参加文末最新《多模态大模型》纸质新书包邮赠送活动!

1、Data Augmentation via Latent Diffusion for Saliency Prediction

c2414a73303528120c2c7eae6c0fc309.png

显著性预测模型受限于有限多样性和标注数据的数量。诸如旋转和裁剪等标准数据增强技术改变了场景构成。提出一种新的用于深度显著性预测的数据增强方法,编辑自然图像同时保持真实世界场景的复杂性和变化性。由于显著性取决于高级和低级特征,方法结合学习两者,包括颜色、对比度、亮度和类别等光度和语义属性。为此,引入一种显著性引导的交叉注意力机制,用于在光度特性上进行有针对性的编辑,从而增强特定图像区域内的显著性。

实验结果表明,数据增广方法始终提高各种显著性模型的性能。此外,利用增强特性进行显著性预测在公开可用的显著性基准测试中表现出更出色的性能。预测结果与经用户研究验证的编辑图像中的人类视觉注意模式紧密吻合。https://github.com/IVRL/Augsal

2、MacDiff: Unified Skeleton Modeling with Masked Conditional Diffusion

0d73870e0fd83b19b16d72a9cfb56dec.png

自监督学习已被证明对基于骨架的人体动作理解非常有效。然而,先前研究要么依赖于对比学习,存在错误负问题,要么基于重建,学习了太多不必要的低层线索,导致下游任务的表示受限。

最近,在生成学习方面取得巨大进展,这自然是一个具有挑战性但有意义的预训练任务,以建模一般性的潜在数据分布。然而,生成模型对具有空间稀疏性和时间冗余的骨架的表示学习能力尚未得到充分探索。因此,提出蒙蔽条件扩散(MacDiff)作为人体骨架建模的统一框架。首次利用扩散模型作为有效的骨架表示学习器。

具体而言,训练一个扩散解码器,其以语义编码器提取的表示为条件。对编码器输入进行随机屏蔽,引入信息瓶颈并消除骨架的冗余。此外在理论上证明,生成目标涉及对比学习目标,对齐了屏蔽和嘈杂视图。同时,它还强制表示来补充嘈杂视图,从而提高了泛化性能。MacDiff在表示学习基准上取得了最先进的性能,同时保持了生成任务的竞争力。此外用扩散模型进行数据增广,在数据稀缺的情况下显着增强微调性能。https://lehongwu.github.io/ECCV24MacDiff/

3、DataDream: Few-shot Guided Dataset Generation

文生图扩散模型在图像合成中取得最先进结果,但尚未证明在下游应用的有效性。先前工作提出通过提供有限的真实数据访问来生成图像分类器训练数据。这些方法难以生成符合分布的图像或描绘细粒度特征,阻碍在合成数据集上训练的分类模型泛化。

提出DataDream框架,在少量目标类别的少量真实示例引导下合成更忠实代表实际数据分布的分类数据集。在用适应后的模型生成训练数据之前,DataDream在少量真实图像上微调图像生成模型的LoRA权重。然后,通过用合成数据对CLIP的LoRA权重进行微调,以改善在各种数据集上相比先前方法的下游图像分类性能。

实验证明DataDream有效性,在10个数据集中的7个数据集上,用少量数据取得最先进的分类准确性,并在其他3个数据集上具有竞争力。此外,还提供有关各种因素的影响的见解,例如实际拍摄和生成图像的数量以及对模型性能的微调计算的影响。https://github.com/ExplainableML/DataDream1b629610122942c45f49a960383fe789.png

4、ProCreate, Don’t Reproduce! Propulsive Energy Diffusion for Creative Generation

提出ProCreate,一种简单易实现的方法,用于改善扩散式图像生成模型的样本多样性和创造力,并防止训练数据的复制式生成。ProCreate在一组参考图像上操作,并在生成过程中积极推动生成的图像嵌入远离参考嵌入。提出FSCG-8(Few-Shot Creative Generation 8),一个少样本创意生成数据集,涵盖了八个不同类别,包括不同概念、风格和设置,其中ProCreate实现了最高的样本多样性和保真度。此外,展示了ProCreate在使用训练文本提示进行大规模评估时有效地防止复制训练数据。https://procreate-diffusion.github.io/

9cb611b0a5690dfe2ba45145241a9f41.png

5、Self-Guided Generation of Minority Samples Using Diffusion Models

提出一种用于生成那些在数据流形低密度区域的少样本的新方法。框架建立在扩散模型上,采样器的关键特征在于其self-contained性质,即仅用预训练模型即可实现。这使得采样器与需要昂贵的额外组件(如外部分类器)的现有技术有所区别。

在基准真实数据集上的实验表明,方法可以显著提高创造出现实中低可能性少数实例的能力,而无需依赖昂贵的额外元素。https://github.com/soobin-um/sg-minority

6cde70e50b8a17b55b28e595ab19c62a.png

6、TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling

从两个看似不相关的对象文本中生成创造性的组合对象,是文本生成图像中的一项具有挑战性的任务,往往受到对模拟现有数据分布的关注的阻碍。本文开发了一种简单高效的方法,称为平衡交换采样。

首先,提出一个交换机制,通过扩散模型随机交换两个文本嵌入的内在元素,生成一个新的组合对象图像集。其次,引入一个平衡交换区域,通过平衡新生成的图像集中的CLIP距离来高效地从中取样一个小子集,增加接受高质量组合的可能性。最后,采用分割方法来比较分割组件之间的CLIP距离,最终选择来自取样子集中最有前途的对象。

实验表明,方法胜过最近的SOTA T2I方法。结果甚至可以与青蛙-西兰花等人类艺术家的作品匹敌。https://njustzandyz.github.io/tp2o/

a73061784f65b319a87d8dcbc24f2262.png

重磅福利

扫码备注【送书】进群,参与免费寄送最新多模态大模型纸质图书抽奖活动,活动截止日期 2024-09-27晚上10点 。

db62db1d29f1b85b3c0f7fa617baf1d3.png

也可自行购买,戳如下,专属优惠!京东专属链接:

34514eae896c56c3ecf8e85d03b4e975.png

### ECCV 2024 扩散模型研究与会议信息 #### 关于ECCV 2024的概述 欧洲计算机视觉国际会议(ECCV)是计算机视觉领域的重要学术活动之一。ECCV 2024已公布录用论文名单,共有2395论文被接受,录用率为18%[^2]。 #### 扩散模型的研究进展 扩散模型作为一种强大的生成模型,在图像编辑、生成等领域取得了显著成果。在ECCV 2024中,多个团队提出了新的算法或改进现有方法来增强扩散模型的表现力和效率。这些工作不仅限于理论上的创新,还包括实际应用中的优化和技术实现。 #### 参与方式 对于希望参与到这一前沿话题讨论的人士来说,可以通过以下几种途径: - **提交论文**:如果已经完成了相关研究成果,则可以考虑向未来的ECCV或其他顶级会议投稿。 - **关注最新动态**:通过官方渠道获取最新的日程安排以及专题研讨会的信息;也可以加入一些在线社区如GitHub项目页面或者Slack群组等地方与其他研究人员交流心得经验。 - **参加线上/线下活动**:许多重要的发现往往是在非正式场合产生的——比如海报展示环节或是社交聚会期间发生的对话里。因此积极出席各类形式的工作坊、教程讲座等活动有助于建立人脉关系网并获得灵感启发。 ```python # 示例代码用于说明如何查询ECCV官网获取更多信息 import requests from bs4 import BeautifulSoup def get_eccv_info(url='https://eccv2024.org'): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') return str(soup.find('div', {'class': 'main-content'})) print(get_eccv_info()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值