注:欢迎参加文末最新《多模态大模型》纸质新书包邮赠送活动!
1、Data Augmentation via Latent Diffusion for Saliency Prediction

显著性预测模型受限于有限多样性和标注数据的数量。诸如旋转和裁剪等标准数据增强技术改变了场景构成。提出一种新的用于深度显著性预测的数据增强方法,编辑自然图像同时保持真实世界场景的复杂性和变化性。由于显著性取决于高级和低级特征,方法结合学习两者,包括颜色、对比度、亮度和类别等光度和语义属性。为此,引入一种显著性引导的交叉注意力机制,用于在光度特性上进行有针对性的编辑,从而增强特定图像区域内的显著性。
实验结果表明,数据增广方法始终提高各种显著性模型的性能。此外,利用增强特性进行显著性预测在公开可用的显著性基准测试中表现出更出色的性能。预测结果与经用户研究验证的编辑图像中的人类视觉注意模式紧密吻合。https://github.com/IVRL/Augsal
2、MacDiff: Unified Skeleton Modeling with Masked Conditional Diffusion

自监督学习已被证明对基于骨架的人体动作理解非常有效。然而,先前研究要么依赖于对比学习,存在错误负问题,要么基于重建,学习了太多不必要的低层线索,导致下游任务的表示受限。
最近,在生成学习方面取得巨大进展,这自然是一个具有挑战性但有意义的预训练任务,以建模一般性的潜在数据分布。然而,生成模型对具有空间稀疏性和时间冗余的骨架的表示学习能力尚未得到充分探索。因此,提出蒙蔽条件扩散(MacDiff)作为人体骨架建模的统一框架。首次利用扩散模型作为有效的骨架表示学习器。
具体而言,训练一个扩散解码器,其以语义编码器提取的表示为条件。对编码器输入进行随机屏蔽,引入信息瓶颈并消除骨架的冗余。此外在理论上证明,生成目标涉及对比学习目标,对齐了屏蔽和嘈杂视图。同时,它还强制表示来补充嘈杂视图,从而提高了泛化性能。MacDiff在表示学习基准上取得了最先进的性能,同时保持了生成任务的竞争力。此外用扩散模型进行数据增广,在数据稀缺的情况下显着增强微调性能。https://lehongwu.github.io/ECCV24MacDiff/
3、DataDream: Few-shot Guided Dataset Generation
文生图扩散模型在图像合成中取得最先进结果,但尚未证明在下游应用的有效性。先前工作提出通过提供有限的真实数据访问来生成图像分类器训练数据。这些方法难以生成符合分布的图像或描绘细粒度特征,阻碍在合成数据集上训练的分类模型泛化。
提出DataDream框架,在少量目标类别的少量真实示例引导下合成更忠实代表实际数据分布的分类数据集。在用适应后的模型生成训练数据之前,DataDream在少量真实图像上微调图像生成模型的LoRA权重。然后,通过用合成数据对CLIP的LoRA权重进行微调,以改善在各种数据集上相比先前方法的下游图像分类性能。
实验证明DataDream有效性,在10个数据集中的7个数据集上,用少量数据取得最先进的分类准确性,并在其他3个数据集上具有竞争力。此外,还提供有关各种因素的影响的见解,例如实际拍摄和生成图像的数量以及对模型性能的微调计算的影响。https://github.com/ExplainableML/DataDream
4、ProCreate, Don’t Reproduce! Propulsive Energy Diffusion for Creative Generation
提出ProCreate,一种简单易实现的方法,用于改善扩散式图像生成模型的样本多样性和创造力,并防止训练数据的复制式生成。ProCreate在一组参考图像上操作,并在生成过程中积极推动生成的图像嵌入远离参考嵌入。提出FSCG-8(Few-Shot Creative Generation 8),一个少样本创意生成数据集,涵盖了八个不同类别,包括不同概念、风格和设置,其中ProCreate实现了最高的样本多样性和保真度。此外,展示了ProCreate在使用训练文本提示进行大规模评估时有效地防止复制训练数据。https://procreate-diffusion.github.io/

5、Self-Guided Generation of Minority Samples Using Diffusion Models
提出一种用于生成那些在数据流形低密度区域的少样本的新方法。框架建立在扩散模型上,采样器的关键特征在于其self-contained性质,即仅用预训练模型即可实现。这使得采样器与需要昂贵的额外组件(如外部分类器)的现有技术有所区别。
在基准真实数据集上的实验表明,方法可以显著提高创造出现实中低可能性少数实例的能力,而无需依赖昂贵的额外元素。https://github.com/soobin-um/sg-minority

6、TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling
从两个看似不相关的对象文本中生成创造性的组合对象,是文本生成图像中的一项具有挑战性的任务,往往受到对模拟现有数据分布的关注的阻碍。本文开发了一种简单高效的方法,称为平衡交换采样。
首先,提出一个交换机制,通过扩散模型随机交换两个文本嵌入的内在元素,生成一个新的组合对象图像集。其次,引入一个平衡交换区域,通过平衡新生成的图像集中的CLIP距离来高效地从中取样一个小子集,增加接受高质量组合的可能性。最后,采用分割方法来比较分割组件之间的CLIP距离,最终选择来自取样子集中最有前途的对象。
实验表明,方法胜过最近的SOTA T2I方法。结果甚至可以与青蛙-西兰花等人类艺术家的作品匹敌。https://njustzandyz.github.io/tp2o/

重磅福利
扫码备注【送书】进群,参与免费寄送最新【多模态大模型】纸质图书抽奖活动,活动截止日期 2024-09-27晚上10点 。
也可自行购买,戳如下,专属优惠!京东专属链接: