我什么都不懂zvz-CSDN博客

原创 DiT：Scalable Diffusion Models with Transformers

该论文发表之前，市面上几乎都是用卷积网络作为实际意义上的（de-facto）backbone。于是一个想法就来了：为啥不用transformer作为backbone呢？文章说本论文的意义就在于揭示模型选择对于扩散模型的重要性，并为生成模型研究提供一个可借鉴的基准（baseline）。本文还揭示出卷积网络的inductive bias对生成性能并没有多大的影响，所以可以使用transformer网络去替代卷积网络。文章使用Gflops和FID去分别评估模型复杂度和生成图像质量。

2024-03-08 16:17:51 1008

原创 LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS

1) 提出背景大模型时代，通常参数都是上亿级别的，若对于每个具体任务都要去对大模型进行全局微调，那么算力和资源的浪费是巨大的。根据流形学习思想，对于数据有用的特征通常集中于低维流形区域。我们想去微调，实际上只是让部分特征的权值更大而已，而这部分特征也是低维的，我们没有必要小题大做将整个模型的参数都动一遍。鉴于此思想，提出了LoRA（Low - Rank Adaptation), 既冻结住预训练好的大模型，插入可训练低维压缩矩阵到每一层（本文是插入到transformer层）。

2024-03-08 13:44:09 959

原创 DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

1) 提出动机以往的任务都很难做到给定几张图像，模型能模仿图像的主体去实现真正的风格迁移（或者说style change只是很简单地更换背景罢了），就算是text-to-image，即使给出了最细节的text，也不能做到真正的风格迁移。作者认为主要原因是指定的主体并没有出现在模型的output domain里，整个分布都没有的东西怎么可能生成呢。2）方法简略一览使用一个A [V] dog的text，结合几张同一个主体的image，传入网络中进行微调。

2024-03-08 11:14:25 926

原创【扩散模型】生成模型中的Residual Self-Attention UNet 以及 DDPM的pytorch代码

参考：[1][2]

2024-03-04 16:35:23 1276

原创 NCSN：Generative Modeling by Estimating Gradients of the Data Distribution

所谓的分数就是对数概率密度的梯度，既sx∂logpx∂xsx∂x∂logpx))。我们很难估计真实数据分布pxp(x)px，但如果我们知道分数，就可以利用分数从pxp(x)px做到随机采样，并且采样方法有很多。

2024-03-03 19:18:55 1159

原创 Variant AutoEncoder(VAE)和 VQVAE 学习笔记和代码

参考：[1][2][3]

2024-03-01 17:30:48 1328

原创 AutoEncoder和 Denoising AutoEncoder学习笔记

只是直觉上的认识，并没有数学推导。后面会写一篇（抄）大一统文章（概率角度理解为什么AE要选择MSE Loss）

2024-03-01 15:22:16 1028

原创【扩散模型第三篇】Classifier Guidance 和 Classifier Free Guidance(CFG)及其代码

我们在DDPM或DDIM生成图像时是通常是不可控的，因为它是由一张随即高斯噪声一步步去噪得到生成图像。如果我们想要这个过程是可控的话，最直观的一个做法就是在生成过程中加上一个条件yyypx1T∣x0ypx1T∣x0y接下来就是讨论加上了条件yyy对于公式有无影响。

2024-02-29 15:59:42 1783

原创【扩散模型第2篇】去噪扩散隐式模型DDIM

参考：[1][2]

2024-02-29 00:03:29 1016

原创 UNet的网络结构和代码手敲

参考：[1]

2024-02-28 16:49:07 1030

原创【扩散模型第1篇】扩散概率模型DPM和去噪扩散概率模型DDPM

参考阅读：[1]

2024-02-27 15:05:03 1209

原创隐变量模型、Auto-Encoder、VAE、VQVAE的学习

(1) 生成模型是什么都东西？生成模型的一般定义：给定从真实分布p(x)p(x)p(x)采样得到的数据x∼p(x)x\sim p(x)x∼p(x)，训练得到一个由θ\thetaθ控制逼近真实分布的pθ(x)p_\theta(x)pθ(x)，则称pθ(x)p_\theta(x)pθ(x)为生成模型。(2) 隐变量模型是什么？为什么要用隐变量模型呢？但实际上我们并不好逼近p(x)p(x)p(x)：1）首先是它的分布过于复杂，而神经网络往往只能拟合一些简单分布；2）其次我们也并不清楚p(x)p(x)p(x)到

2024-02-25 00:59:29 1036 1

原创 ConvNext学习

参考：[2][3][4]

2024-02-23 11:11:19 1150

原创 ResNet、ResNext学习

以上三种结构是等价的，所以可以用最后的©去替换掉原来的residual blockC表示组卷积的group数量，4表示group 卷积的个数总体来看，ResNext和ResNet大致是一样的，不同之处在于将residual block的前两个conv的输出维度提高了一倍，并且中间的3x3conv替换成了group=32且group_num=4的组卷积。

2024-02-21 17:27:53 1051

原创【持续更新】生成模型常用评估指标记录

FID同样也是通过将生成的图片通过Inception Net-V3来评估图像质量，只不过它的输出不是最后的1000维向量，而是2048维特征，通过特征来评估生成图像质量的好坏（如果质量好的话，生成图像的特征的概率分布应该近似于真实样本的特征的概率分布）。如果是其他数据集上训练的生成模型，将生成的图片丢进分类器里，得到的效果并不好。这是人脸生成任务上的消融实验，可以看到对于FID评估指标，不真实的生成图像确实会导致更高的FID（包括最后一行的在生成图像中插入随机的ImageNet中的图像）。

2024-02-20 17:05:40 1077

原创【论文学习5】GML：Long-Tailed Recognition by Mutual Information Maximization

对比学习尽管在很多representation learning tasks上有普遍不错的表现，但是在长尾数据集上就不咋滴。许多研究人员尝试将对比学习和logic adjustment技术结合来解决此问题，但这种组合是临时的(ad-hoc)且没有理论解释。发现了对比学习在长尾任务上表现不好的普遍原因：他们都尝试最大化潜在特征和输入数据之前的互信息（mutual information）。而GT是没有参与到这个最大化过程的，所以没有办法解决类别不平衡问题。

2023-12-20 18:10:11 998

原创【论文学习4】CBLoss：Class-Balanced Loss Based on Effective Number of Samples

在本工作中，发现随着样本数量增多，新增数据附带的benefit可能会有所减少（因为新增数据的features可能与原有数据的features存在重叠关系，加了也白给）提出了一种新的理论框架来衡量数据重叠：将每个样本与小邻域关联而不是与单个样本关联；这里的关键不是去理解什么是小邻域，而是去理解它是如何衡量数据重叠。定义了En1−βn1−βEn1−βn1−β，其中β∈01β∈01是个超参数。使用样本有效个数去re-balance 损失函数。

2023-12-18 16:19:01 1303 1

原创【论文学习3】LDAM：Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss

训练数据集出现严重的类不平衡问题会导致在实际应用中缺乏泛化性。该文设置了两种解决的算法：1）基于标签分布的边界损失（Label-distribution-aware margin, LDAM);2) 延迟重新加权（Defers re-weighting, DRW)，既让模型学习初始特征表示，再进行re-weighting或re-sampling。

2023-12-17 17:33:50 1608 2

原创【论文学习2】Focal Loss: Focal Loss for Dense Object Detection

日期：2023/12/16论文：Focal loss for dense object detection会议：ICCV2017参考：因为近期做长尾分类，所以不看目标检测部分，大部分也是参考内容中知乎里的part。

2023-12-17 00:50:09 978 1

原创【论文学习1】Deep Long-Tailed Learning: A Survey

训练数据通常存在长尾类别分布问题，既小部分类中拥有大量的样本点，大部分类中拥有少量的样本点。这样会限制深度学习模型的实用性，由这样数据集训练出来的模型往往不会在现实实际应用表现得很好，因为它们会更倾向于主导类，并在尾部类表现得很差。如下图所示，大量数据在少数类里；总的来说，有两大挑战：1）不平衡导致模型偏向于头类；2）缺乏尾类使得训练模型进行尾类分类更具挑战；不平衡比的定义：n1nkn_1/n_kn1nk其中nin_ini表示第iii个类的数据个数；

2023-12-16 16:35:21 981 1

原创 CLIP 论文阅读：Learning Transferable Visual Models From Natural Language Supervision

训练最先进的计算机视觉系统用来预测一组固定的物体类别。这种受限制的形式（指模型对于数据集没有的数据它并不能做得很好）限制了系统的泛化性和可用性，因为如果想要识别其他的视觉信息，还需要额外的数据进行训练（言外之意就是做不到zero-shot）。直接从关于图像的原始文本中去学习是一个很有前景的替代方式，它利用了更广泛的监督来源（网上都是，且只要是语言描述过的都可以被用作是监督信号）。

2023-12-12 01:15:56 866

原创 SimCLR 论文阅读

这篇文章介绍了SimCLR：视觉表征对比学习的简单框架。我们简化了最近提出的自监督对比学习，而不需要专门的架构或menory bank。为了了解到是什么让对比学习学习到有用的表征特征，我们系统学习了该架构的主要部分：我们发现（1）数据增强的组合在定义有效的预测任务中起到了重要作用，（2）在表征特征和对比损失之间引入非线性可学习变化可以实在地提高可学习表征的质量，（3）与监督学习相比，对比学习受益于很大的batch sizes和更多的训练步骤。

2023-12-11 19:51:22 878

原创 CSDN MD编译器

你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：撤销：Ctrl/Command + Z重做：Ctrl/Command + Y加粗：Ctrl/Command + B斜体：Ctrl/Command + I标题：Ctrl/Command + S

2023-11-11 16:18:58 33 1

原创 LaTex + VS Code 环境配置（入门配置）

创建一个tex文件，可以看见有recipe组合，既多种编译组合。其中pdf-bib-pdf-pdf会生成有交叉引用的pdf，也是最常用的编译组合。但是VS Code默认会选择第一个编译模式，所以我们要修改默认的编译组合。不要删除XeLaTeX生成的.synctex.gz文件，否则正向/反向搜索功能将会失效。并且默认是保存的时候自动编译，也可以选择不编译。下载好后，虚拟光盘打开，管理员权限打开。反向搜索既在PDF区域按住。，显示如下就表示安装成功。打开cmd命令行，输入。

2023-09-14 23:13:03 132 1

原创 VSCode, CMake配置（刷题向，运行多个main函数，多文件）

提醒：仅供参考，是本人记录用的。

2022-08-06 07:51:22 1691

Je1zvz的博客