自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(378)
  • 收藏
  • 关注

原创 GAN 是如何学习语义的?

的GAN(Conditional GAN,简称CGAN)中,生成的过程可以有。这种引导信息会作为额外输入传给生成器,使其能够生成具有特定特征的图像。这种通过对抗学习从数据中自动建模语义的特性,使得 GAN 能够生成具有。

2024-12-14 22:10:17 238

原创 Interpreting the Latent Space of GANs for Semantic Face Editing

性质1懒得翻译了,这个主要说的是如何找超平面,也就是一个平面的定义是又法向量来确定的。性质二也懒得翻译的latex打到吐血。它其实说了这么一个事情,空间上的点到某个平面的距离,在一个比较大的概率上都在某个区域内,如果这个空间的点服从某种分布。

2024-12-14 14:11:51 134

原创 StyleGAN 的潜在空间(latent space)的类型

StyleGAN 的潜在空间(latent space)设计丰富多样,不同类型的潜在空间提供了不同的特性以支持多样化的生成和编辑任务。以下是。

2024-12-13 00:54:47 283

原创 【深度学习】Tensorflow报错:AttributeError: module ‘tensorflow‘ has no attribute ‘InteractiveSession‘

转载:【深度学习】Tensorflow报错:AttributeError: module ‘tensorflow‘ has no attribute ‘InteractiveSession‘_attributeerror: module 'tensorflow' has no attribu-CSDN博客

2024-12-11 22:41:10 110

原创 diffusion model(十四): prompt-to-prompt 深度剖析

转载:diffusion model(十四): prompt-to-prompt 深度剖析 - 知乎

2024-12-11 18:06:42 268

原创 DDPM, DDIM, LDM 和stable diffusion

综上所述,从DDPM到DDIM,再到LDM,最后到Stable Diffusion,这些模型的发展体现了扩散模型在图像生成领域的不断进步和优化。每一步的发展都在提高生成效率、降低计算成本以及提升图像质量方面做出了贡献。

2024-12-09 10:43:05 304

原创 Diffusion中guidance_scale 的理解

是一个控制生成图像引导程度的参数。它的含义和使用与论文中的公式 (2) 的引导权重类似。

2024-12-06 17:24:31 522

原创 关于diffusion的accelerate的配置

【代码】关于diffusion的accelerate的配置。

2024-12-06 17:02:32 97

原创 Dataset用load_dataset读图片和对应的caption的一个坑

发现了我的 datasets的版本是2.1.0。发现我浏览的huaggingface官网的版本是2.4.0。好的,立马换了版本,over,成功读如图片和caption!想要读进图片和以及对应的caption, 结果只是读出来了和label(这里只有一个文件夹,所以label全是0)。自己代码和他写的一摸一样,为什么会把caption读不进去呢?

2024-12-05 00:09:51 276

原创 Directional CLIP loss

具体来说,Directional CLIP loss 的目的是在CLIP空间中识别出源域和目标域之间的方向,然后微调生成器,使得它产生的图像与源域的差异仅沿着这个文本描述的方向。Directional CLIP loss 是在论文 "StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators" 中提出的一种损失函数,用于指导图像生成器在特定领域生成图像,仅通过文本提示,而无需看到任何图像。与源文本和目标文本规定的方向。

2024-12-02 22:55:44 181

原创 Diffusion中的Unet (DDIM)

也就是说在:down,mid和up Block时候都有传入text_embedding的信息encoder_hidden_states和cross attention的控制:cross_attention_kwargs.具体每一个Block的实现看源码。

2024-11-29 22:33:42 294

原创 Classifier Guidance和Classifier-free Guidance的介绍和理解

参考: https://zhuanlan.zhihu.com/p/647931149classifier guidance通过额外的分类器对diffusion过程中的score估计进行条件引导。classifier guidance diffusion的几个问题谷歌在Classifier-free diffusion guidance论文中提出Classifier-Free Guidance方案用以规避上述问题。通过调节引导的权重来控制生成图像的真实性和多样性的平衡。classifier-free guid

2024-11-28 19:36:22 342

原创 diffusion model: prompt-to-prompt 深度剖析

prompt是通过文本编码器(如CLIP的text encoder)转为语义向量再送入到diffusion model的cross-attention层中与图片信息交互。目前大火的文生图技术(text to image),给定一段文本(prompt)和随机种子,文生图模型会基于这两者生成一张图片。生成图片的不同由两个变量决定。:随机种子决定初始的噪声。

2024-11-28 17:49:25 513

原创 论文阅读Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing

像Stable Diffusion这样的Deep Text-to-Image Synthesis (TIS) models 模型最近在创造性文本到图像生成方面获得了显着的普及。然而,对于特定领域的场景,无调整的文本引导图像编辑(Image Editing (TIE) 对应用程序开发人员更为重要。。然而,,注意力图的哪些部分有助于图像编辑的成功。在本文中,我们进行了深入的探测分析,并证明通常包含对象属性信息,这可能导致编辑失败。相比之下,

2024-11-28 01:53:40 1089

原创 Diffusion 和Stable Diffusion的数学和工作原理详细解释

转载:

2024-11-23 10:42:17 644

原创 DDPM与DDIM中的采样

(Sampling)指的是根据模型生成新样本的过程。在扩散模型(Diffusion Models)中,采样的关键是从高斯噪声逐步还原出原始数据。DDIM 是对 DDPM 采样过程的改进,目标是在。的采样过程,以及两者之间的差异。

2024-11-22 19:54:36 591

原创 DDPM与DDIM图像编辑入门概念和知识

好的大型DDPM模型支持额外的输入条件(如Canny edges、Hough lines、user scribbles、segmentation maps、human key points、shape normals、depths等)(2)不同于image-to-image translation致力于学习不同domain之间的映射,ContrlNet旨在用task-specific condition来控制。DDPM是开山之作,DDIM是基于DDPM的。

2024-11-21 00:13:21 458

原创 论文阅读Adding Conditional Control to Text-to-Image Diffusion Models

视频:

2024-11-20 23:30:32 160

原创 Unet详解

转载:Unet详解-CSDN博客

2024-11-20 23:13:04 238

原创 论文阅读 SeedEdit: Align Image Re-Generation to Image Editing

摘要SeedEdit,这是一种扩散模型,它能够用任何文本提示修改给定图像。在我们看来,这项任务的关键是在保持原始图像(即图像重建)和生成新的图像(即图像再生)之间获得最佳平衡。为此,我们从一个弱生成器(文本到图像模型)开始,它在这两个方向之间创建不同的对,并逐渐将其对齐到一个强大的图像编辑器中,可以很好地平衡这两个任务。SeedEdit 可以在先前的图像编辑方法上实现更多样化和更稳定的编辑能力,从而能够对扩散模型生成的图像进行顺序修改。

2024-11-20 11:59:03 1710

原创 Text to Image

将输入文本转换为可处理的语义向量表示(例如通过。模型,如BERT、CLIP等)基于文本向量,用生成模型(如。

2024-11-19 13:48:28 226

原创 图像编辑一些概念:Image Reconstruction与Image Re-generation

从已有的图像中提取信息,并通过保持这些信息的完整性来恢复或调整图像。

2024-11-19 13:28:22 591

原创 梯度param.grad is None与param.grad.norm() == 0

这是在检查参数是否根本没有梯度。通常情况下,这种情况会出现在模型的一些冻结层(即不进行梯度计算的层)或由于其他原因(例如没有传递梯度信息)导致的无梯度参数。将帮助你进一步明确梯度的具体情况。如果所有梯度都为零,建议检查模型的前向和反向传播逻辑,确保损失正确传递到各层并影响到每个参数的更新。),但是它的每个元素都是零。这种情况可能出现在一些特定的条件下,比如梯度计算过程中因数值问题出现了“梯度消失”。:这是在检查参数的梯度是否为零向量。

2024-11-12 10:24:44 155

原创 连通区域的scipy.ndimage.label 中的label

函数的主要作用是对输入的二进制图像(通常是布尔数组)进行连通区域标记。这个函数能够识别图像中相连的“真”区域,并为每个连通区域分配一个唯一的标签。下面是关于label函数的详细说明和使用示例。函数简介。

2024-11-06 02:06:08 297

转载 损失缩放(Loss Scaling)loss sacle

近期看代码的时候发现了loss_scale的参数,不知道为什么算loss还需要放缩,在参数说明中,当只有选择了fp16精度的选项时,loss_scale才有效。在交易系统中算钱的时候,规范的做法是把金额如1.01元*100之后再做计算,计算完之后再除以100,这样可以避免0.01无法用二进制精确表示造成的舍入误差。,防止因二进制表示误差导致的训练问题。的高值(如:65536.0000)通常是在启用混合精度训练(Automatic Mixed Precision, AMP)时发生的。度,减少显存需求空间。

2024-11-04 02:03:51 81

原创 报错:The detected CUDA version (11.8) mismatches the version that was used to compile PyTorch (12.1).

【代码】报错:The detected CUDA version (11.8) mismatches the version that was used to compile PyTorch (12.1).

2024-11-03 19:44:22 319

原创 环境报错:/usr/local/cuda/bin/nvcc: No such file or directory 错误

先确定 cuda 是否安装成功。安装成功的话直接在命令行里输入。

2024-11-03 19:04:30 229

原创 timm的vit (vision transformer), swin Transformer源码仓库-无优化版

放一个github上的无优化版仓库,可以基于这个来魔改代码:swin transformer的官方代码:swin transformer的讲解可以看这里:

2024-11-03 01:29:37 374

原创 训练模型时梯度出现NAN或者INF(禁用amp的不同level)

首先来说可能得原因:1. 模型中存在未初始化或未更新的参数(层)2. 除以0或者log引起3.输入数据存在你nan或者inf4. 学习率过大造成梯度不稳定这里着重讲下第5点。因为debug了发现都不是1,2,3,4的问题所以最后调试问题出在数据类型上。PyTorch 默认使用的是 float32精度。这种精度在训练和推理过程中提供较好的数值稳定性,但相对占用更多显存和计算资源。

2024-10-29 21:59:05 393

原创 MOE混合专家模型总结(面试)

Topk门控是一种门控策略,它选择权重最高的k个专家来处理输入数据。这种策略可以确保最相关的专家被优先激活,从而提高模型的性能和效率。然而,topk门控也可能导致某些专家被过度使用而其他专家闲置的情况,因此需要在实际应用中进行权衡。

2024-10-23 01:23:10 491

原创 打印checkpoint或者初始化的model代码

【代码】打印checkpoint或者初始化的model代码。

2024-10-20 21:18:13 107

原创 论文阅读MoE |ImageNet准确率超过90%?V-MoE:Scaling Vision with Sparse Mixture of Experts

专家的缓冲区容量 (每个 Expert 处理的 token (即图像 Patch) 数):每张图片的 Patch 数:每个 token 所选专家的数量:Expert 的总数:模型的容量:V-MoE 控制每个 Expert 处理的 token (即图像 Patch) 数不变:如果路由器为给定的 Expert 分配超过 个 token,则只处理其中的。剩余的标记并不会完全 "丟失",因为它们的信息由残差连接保留 (图 1 的顶部图)。此外,如果 ,几个 Expert 尝试处理一个 token。

2024-10-17 13:41:16 665 1

原创 Linux下的常用命令

2. 查看该目录下所有文件占多大空间。1. 查看磁盘空间剩余容量情况。

2024-10-17 13:32:58 125

原创 混合专家模型(MoE)中的容量因子f

不过,需要注意的是,这里的“激活”并不意味着每个专家都完全独立地进行计算。此外,容量因子f的设置对MoE模型的性能和效率有重要影响。因此,在实际应用中,需要根据具体任务和数据集的特点来选择合适的容量因子f。当容量因子f为1.25时,这意味着在MoE层的每次迭代中,实际参与计算的专家数量是总专家数量的1.25倍。具体来说,容量因子f通常定义为MoE层中实际激活的专家数量与MoE层中总专家数量的比例。在混合专家模型(MoE)中,容量因子f是一个重要的参数,它用于。

2024-10-17 01:51:55 482

原创 自回归模型(Autoregressive Model,AR)

用历史的信息来预测自己。

2024-10-17 00:55:47 131

原创 论文阅读MOE:TASK-CUSTOMIZED MASKED AUTOENCODER VIA MIXTURE OF CLUSTER-CONDITIONAL EXPERTS

通过引入一个基于聚类的语义条件专家混合(MoCE)层,使得每个专家(expert)只被训练与特定语义相关的图像,从而为不同的下游任务提供定制化的预训练模型。总结来说,这篇论文提出了一种新的方法MoCE,通过数据聚类和语义条件专家混合来解决预训练模型在不同下游任务中的负迁移问题,并在多个任务上验证了其有效性。- **门控机制(Gate Design):** 设计了一种基于聚类嵌入的门控机制,用于将输入的图像路由到相应的专家进行处理。- **构建MoCE架构:** 在MAE的基础上,引入多个专家结构。

2024-10-16 14:16:17 696

原创 huggingface的数据集下载(linux下clone)

3. git clone dataset包。

2024-10-16 13:02:01 479

原创 Linux 下screen 常用命令

screen -ls #查看已建的screen ID(保持只有一个xdd会话,多的话可能运行不正常,百度screen删除会话命令) screen -r xdd #连接已经创建的screen窗口 screen已经是后台,不需要-d,不需要nohup。先恢复没有则创建:screen -R name。指定作业离线:screen -d name。查看有多少会话:screen -ls。恢复:screen -r name。

2024-10-15 20:06:48 148

原创 论文阅读-混合专家模型MOE-DAMEX:Dataset-aware Mixture-of-Experts for visual understanding of mixture-of-dataset

然后,计算每个专家 eiei​ 的选择概率 pi(x)pi​(x): pi(x)=exp⁡(gxi)∑j=1∣E∣exp⁡(gxj)pi​(x)=∑j=1∣E∣​exp(gxj​​)exp(gxi​​)​ 这里,exp⁡(gxi)exp(gxi​​) 是指指数函数 egxiegxi​​,分母是所有专家得分指数的总和。建议专家混合不仅仅是可扩展的学习者,而是为数据集混合构建通用模型的有效和高效的解决方案。模型在训练期间就学会了将适当的输入数据集路由到对应的专家,这使得模型在测试时更加健壮。

2024-10-13 21:10:18 956 1

原创 linux查看某个文件夹的大小(ls命令、du命令详解)

查看当前目录总大小。

2024-10-13 19:35:32 782

竞争性自适应重加权算法(CARS)

竞争性自适应重加权算法(CARS)是一种在光谱分析、化学计量学和机器学习领域广泛应用的数据处理和变量选择方法。它基于自适应重加权采样(Adaptive Re-weighting Sampling, ARS)策略,旨在优化部分最小二乘(Partial Least Squares, PLS)模型的性能,特别是在高维数据集上。CARS的核心目标是找到最优的变量组合,这些组合能够最大化模型的预测能力和解释能力,同时减少过拟合的风险。 在CARS算法中,首先会根据PLS模型的回归系数绝对值对所有变量进行排序。那些具有较大绝对值的回归系数通常意味着对应变量对模型预测目标变量有较大影响。然后,CARS会采用自适应的方式,逐步增加或减少变量的权重,通过交叉验证(Cross-Validation, CV)来评估模型性能,具体使用的是均方根交叉验证误差(Root Mean Square Error of Cross Validation, RMSECV)作为评估指标。

2024-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除