研1学习
文章平均质量分 70
禧西
这个作者很懒,什么都没留下…
展开
-
工具记录1
marp:用Markdown制作幻灯片:Marp-腾讯云开发者社区-腾讯云原创 2024-09-27 16:08:03 · 72 阅读 · 0 评论 -
基础知识备忘
图像重建损失是指导模型生成与原始图像尽可能相似的核心工具。不同的损失函数适用于不同的图像重建任务,如像素级损失(MSE、MAE)、感知损失、对抗损失、SSIM 损失等,它们在自动编码器、VAE、GAN、图像超分辨率、图像去噪等任务中广泛应用。CFG(Classifier-Free Guidance)训练方法是一种用于条件生成任务的技术,通过结合有条件和无条件生成结果,模型能够更好地生成符合条件的样本,同时保持生成样本的多样性。原创 2024-09-25 16:00:50 · 547 阅读 · 0 评论 -
研1论文阅读——6
这篇论文提出了一种名为 DreamBooth 的新方法,用于个性化文本到图像扩散模型。只需几张主体的图像,DreamBooth 就可以微调预训练的文本到图像模型,将唯一标识符与该特定主体绑定。这使得模型能够在不同的上下文、姿势、视角和照明条件下合成主体的新颖逼真图像,同时保留主体的关键视觉特征。作者将 DreamBooth 应用于各种基于文本的图像生成任务,如主体重新情境化、基于文本的视图合成和艺术渲染。他们还提供了一个新的数据集和评估协议,用于这种以主体为驱动的生成新任务。原创 2024-09-10 23:34:07 · 241 阅读 · 0 评论 -
研一论文阅读——3
本文提出了一种加速的局部文本驱动图像编辑解决方案,其中所需的编辑被限制在用户提供的掩码区域内。该方法利用文本到图像的潜在扩散模型(LDM)在较低维的潜在空间中运行,消除了每个扩散步骤中资源密集型CLIP梯度计算的需求,从而加快了扩散过程。作者解决了LDM固有的不精确重建问题,这限制了该方法的适用性,并提出了处理细小掩码的解决方案。该方法与现有基准进行了评估,结果表明它更快且产生更精确的结果。原创 2024-09-10 20:23:17 · 378 阅读 · 0 评论 -
研1论文阅读——5
本文提出了一种无需训练的语义引导方法"Pick-and-Draw",以提高文本到图像个性化模型的身份一致性和生成多样性。该方法包括两个组件:外观选取引导和布局绘制引导。外观选取引导使用参考图像的视觉特征构建外观调色板,并选取局部模式来生成具有一致身份的指定主体。布局绘制引导参考普通扩散模型的生成模板勾勒主体轮廓,并继承强大的图像先验根据不同文本条件合成多样的背景。该方法可应用于任何个性化扩散模型,只需要一张参考图像。原创 2024-09-10 20:21:53 · 139 阅读 · 0 评论 -
研一论文阅读——4
本文提出了 RealCustom,这是一种全新的文本到图像定制范式,它将给定主体的相似性与给定文本的可控性分离开来。与现有方法将主体表示为伪词不同,RealCustom 逐步缩小真实文本词到特定主体,利用预训练模型中的交叉注意力来区分相关部分。这是通过"训练-推理"解耦框架实现的:在训练期间,RealCustom 学习视觉条件和原始文本条件之间的广义对齐,在推理期间,它使用自适应掩码指导策略来迭代更新给定主体的影响范围和数量。原创 2024-09-07 15:58:51 · 948 阅读 · 1 评论