自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(123)
  • 收藏
  • 关注

原创 L0G4000作业

2024-10-31 11:15:52 95

原创 L0G2000作业

2、Vscode连接InternStudio debug笔记。

2024-10-30 16:20:23 84

原创 L0G1000作业

1、创建开发机2、SSH连接3、端口映射。

2024-10-29 20:45:43 71

原创 [iBOT] Image BERT Pre-Training with Online Tokenizer

探索visual tokenizer编码下的MIM(Masked Image Modeling)

2024-09-05 19:14:26 592

原创 [MOCO v3] An Empirical Study of Training Self-Supervised Vision Transformers

探索基于contrastive/Siamese范式(而非masked auto-encoding范式)和ViT结构(而非卷积网络)的自监督学习。

2024-09-04 17:14:16 448

原创 [SimCLR v2] Big Self-Supervised Models are Strong Semi-Supervised Learners

借助无监督预训练来提升半监督学习的效果。

2024-08-29 20:40:34 358

原创 [MOCO v2] Improved Baselines with Momentum Contrastive Learning

结合SimCLR和MoCo,实现SoTA。

2024-08-28 18:55:23 190

原创 [SimCLR] A Simple Framework for Contrastive Learning of Visual Representations

无监督对比学习,高效提取视觉特征。

2024-08-28 16:42:48 301

原创 [MOCO] Momentum Contrast for Unsupervised Visual Representation Learning

无监督表示学习在自然图像领域已经很成功,因为语言任务有离散的信号空间(words, sub-word units等),便于构建tokenized字典现有的无监督视觉表示学习方法可以看作是构建动态字典,字典的“keys”则是从数据(images or patches)中采样得到的,并用编码网络来代表构建的字典需要满足large和consistent as they evolve during training这两个条件。

2024-08-22 20:12:00 792

原创 [MAE] Masked Autoencoders Are Scalable Vision Learners

NLP领域的自监督预训练非常成功,CV领域可以参考其masked autoencoding方法。主要挑战有:1)CNN不会直接用mask tokens或者positional embeddings,而是在规则网格上运算 -> Vision Transformers (ViT)2)Language是人为创造的,在语义和信息上非常密集,即便只训练模型预测一个句子中的个别缺失的单词,也能学到有用的信息;

2024-08-09 20:26:48 456

原创 [ViT] An Image is worth 16x16 words: Transformers for image recognition at scale

用纯transformer结构的网络来进行图像分类任务。

2024-07-18 16:50:04 299

原创 [transformer] Attention is all you need

提出一种新的网络结构,不用CNN或者RNN,只基于self-attention。

2024-07-16 18:44:08 365

原创 一些常用计算

2、神经网络参数量3、

2024-07-16 18:32:09 108

原创 [DiT] Scalable Diffusion Models with Transformers

用transformer来替代U-Net backbone,提升生成效果。

2024-07-12 17:41:57 608

原创 [ControlNet] Adding Conditional Control to Text-to-Image Diffusion Models

让预训练好的大型DDPM模型支持额外的输入条件(如Canny edges、Hough lines、user scribbles、segmentation maps、human key points、shape normals、depths等)不同于image-to-image translation致力于学习不同domain之间的映射,ContrlNet旨在用task-specific condition来控制扩散模型。

2024-07-08 16:49:31 369

原创 [Classifier-Guided-Expand] More Control for Free! Image Synthesis with Semantic Diffusion Guidance

过去的text-to-image生成方法需要image-caption对进行训练,无法用在没有text annotation的数据集上本文用一个统一的框架,可以选择用reference image / language / language + image指导图像生成模型。

2024-07-03 18:35:48 216

原创 [Imagen] Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

对super-resolution增加guidance weight可以提高image-text alignment,但是破坏图像逼真度,得到高饱和度和不自然的图像,因为高guidance weights会导致x-prediction超过[-1, 1]的范围,导致训练集和测试集之间出现mismatch。1)用于评估image fidelity和image-text alignment(e.g. 渲染不同颜色,物品数量,空间关系,场景中的文本,不同物品之间不寻常的互动等)至[-s, s]之间,然后再除以s。

2024-07-02 19:30:46 464

原创 [DALL·E 2] Hierarchical Text-Conditional Image Generation with CLIP Latents

CLIP + DDPM进行text-to-image生成。

2024-06-25 17:37:56 873

原创 [GLIDE] Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

综合所有的text prompts来生成photorealistic images。

2024-06-13 20:00:13 365

原创 [Stable Diffusion/LDM] High-Resolution Image Synthesis with Latent Diffusion Models

DM的train和infer均需大量的时间和显存。

2024-06-12 15:33:30 1158

原创 [CLIP] Learning Transferable Visual Models From Natural Language Supervision

通过在4亿图像/文本对上训练文字和图片的匹配关系来预训练网络,可以学习到SOTA的图像特征。预训练模型可以用于下游任务的零样本学习。

2024-06-07 19:55:22 563

原创 [Classifier-Free] Classifier-Free Diffusion Guidance

1)Classifier Guidance的问题a)需要额外训练一个分类器(要基于噪声图像训练,因此无法用现成的预训练分类器),使得扩散模型的训练pipeline更加复杂2)此外,像GAN和基于flow的模型,可以通过在采样时降低方差或者噪声输入的范围来实现truncation或者低温采样,从而平衡生成结果的variaty和fidelity。而在diffusion的reverse过程中对模型score进行缩放或者降低高斯噪声的方差则会生成模糊和低质量的图像。

2024-06-05 17:21:52 921

原创 [IDDPM] Improved Denoising Diffusion Probabilistic Models

对DDPM进行优化,重点优化log-likelihood2)减少采样步数,加速infer3)在high-diversity数据集,如imagenet上,获得了良好的结果。

2024-04-19 13:25:41 891

原创 [Classifier-Guided] Diffusion Models Beat GANs on Image Synthesis

针对diffusion models不如GAN的原因进行改进:1)充分探索网络结构2)在diversity和fidelity之间进行trade off。

2024-04-11 17:52:18 509

原创 [SDE] Score-Based Generative Modeling through Stochastic Differential Equations

扩散过程随时间进行(连续化)time-dependent神经网络估计score,用SDE求解反向生成过程。

2024-04-10 14:41:36 775

原创 [DDIM] Denoising Diffusion Implicit Models

DDPM生成图像需要模拟Markov链,因此要经过多轮推理(因为条件概率仅仅与系统的当前状态相关),且推理过程是sequentially而不是parallel的DDIM在不改变DDPM训练的基础上,减少了infer次数,在极大地增加了采样效率的同时,几乎不影响采样效果。

2024-04-08 18:43:15 341

原创 ubuntu 20.04安装一系列软件

【bug】

2023-12-20 16:16:27 1538

原创 生成扩散模型理论框架

即求解得分函数(Score function)。得分函数是数据的log密度的梯度(the gradient of the log-density with respect to the data vector),即。DDPM的一般化形式。DDIM的一般化形式。

2023-10-20 15:46:26 175

原创 常用数学定义

1、泰勒级数

2023-10-20 14:08:07 163

原创 [DDPM] Denoising Diffusion Probabilistic Models

直接看paper云里雾里,一些推荐的讲解: The Annotated Diffusion Model 生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼 生成扩散模型漫谈(二):DDPM = 自回归式VAE 生成扩散模型漫谈(三):DDPM = 贝叶斯 + 去噪 已知确定的forward / diffusion过程:训练图像,逐步加噪声,最终得到高斯噪声图像 求解reverse过程:采样高斯噪声图像,逐步去噪,最终得到生

2023-07-25 21:16:56 332

原创 [StyleGAN] A Style-Based Generator Architecture for Generative Adversarial Networks

解耦出了生成网络中style的影响因素,并可以利用这一点实现不同生成图像的风格融合注意:该网络还是从噪声生成随机图像,只是可以把已经生成的随机图像的latent code相融合,得到介于两者之间的新类型图像;而不是根据手头的图像来实现风格融合。

2023-06-08 16:42:06 177

原创 [BigGAN] Large Scale GAN Training for High Fidelity Natural Image Synthesis

在大型数据集上训练class-conditional GAN,并探索相关的trick。

2023-06-06 20:52:23 686

原创 图像生成常用评估指标

Turkers were presented with a series of trials that pitted a “real” image against a “fake” image generated by our algorithm Train classifiers on real images. Score synthesized photos by the classification accuracy against the labels these photos wer

2023-05-27 18:44:37 821

原创 [CycleGAN] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

以往的image-to-image translation需要有aligned image pairs。本文设计的方法可以用于unpaired(只提供image sets X和Y)风格转换。传统的GAN虽然也可以实现X -> Y的转换,但:1)无法保证生成的y和x是对应关系(same underlying scene)2)可能出现mode collapse。

2023-05-27 17:54:53 94

原创 [cGAN] Conditional Generative Adversarial Nets

unconditioned GAN生成的图像模式是不可控的。

2023-05-25 15:13:41 79

原创 [WGAN] Wasserstein GAN

文章用了大篇幅的理论证明了概率分布在EM distance下是收敛的,而在其他几个distance下是不收敛的。GAN的训练是delicate和unstable的。需要定义一个连续的距离。4)Earth-Mover(EM)距离 / Wasserstein-1。,来衡量模型distribution和真实distribution之间的差异。3)显著减少了模式坍塌现象。1)无须平衡D和G的训练。2)无须慎重设计网络结构。

2023-05-22 15:26:58 463

原创 [SRGAN] Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

过去的super-resolution (SR)算法通过最小化mean squared error (MSE)来进行优化,尽管可以提高peak signal-to-noise ratio (PSNR),但pixel-wise的图像监督无法捕捉到更精细的纹理细节。

2023-05-19 11:52:35 147

原创 [DCGAN] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

GAN的训练很不稳定,很容易得到毫无意义的结果。

2023-05-18 22:07:43 152

原创 一些python编程中常踩的坑

如果不想在改变sub_arr的时候,把arr也改了,那就记得加.copy()

2023-05-17 10:36:21 77

原创 [VAE] Auto-Encoding Variational Bayes

直接看paper看得云里雾里,一语道破天机(建议从30min左右开始看GAN到Diffusion的串讲)。VAE的核心思路就是下面:做生成,其实就是从随机向量(z)到目标图像(x)的过程,那么z就是先验,x就是后验。

2023-05-12 19:12:17 667

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除