深视-CSDN博客

原创【持续更新】Segment Anything Model （SAM）分割一切大模型相关论文和项目介绍

分割一切大模型SAM相关论文和项目介绍

2023-09-21 10:28:13 65352 6

原创小样本学习&元学习经典论文整理

本文整理了近些年来有关小样本学习的经典文章，并附上了原文下载链接以及论文解读链接。文末有我个人公众号“深视”的二维码链接，关注公众号回复“小样本学习”，可以打包下载全部文章。该文我会持续更新，不断增添新的文章和相关解读，大家可以收藏关注一下。一、基于度量学习的小样本学习算法1.《Siamese Neural Networks for One-shot Image Recognition》网络名称：Siamese Network 文章来源：ICML2015 原文下载：http://www

2020-08-21 20:44:28 41741 39

原创常用小样本数据集介绍与下载汇总

本文整理了近些年常用的小样本数据集，提供了数据集介绍，参考文献以及下载地址。我手头有资源的都已经上传至百度云盘，其他数据集也提供了官方的下载地址（有些可能需要翻墙）。最后还对各个数据集的情况做了一个简单的汇总。1.Omniglot Omniglot数据集是由来自50种不同语言的1,623个手写字符构成的，每个字符都有20个不同的笔迹，这就构成了一个样本类别极多（1623种），但每种类别的样本数量极少（20个）的小样本手写字符数据集。使用中通常选择1200种字符作为训练集，剩余的423种字符作为验证

2020-07-22 11:24:55 14446 1

原创基于深度学习的立体匹配相关论文总结

基于深度学习的立体匹配相关论文总结详细内容发表时间：2017年3月13日网络名称：GC-Net主体思想作者构建了一个全新的端到端的网络用于生成立体图像的视差图，首先利用二维的卷积神经网络提取出原始图像的特征图，将每个视差下的特征图组合起来，得到一个四维的匹配代价卷。...

2019-08-21 12:45:37 1121 1

原创运行PSMNet网络时遇到的问题及解决方案

运行环境：ubuntu16.04 + cuda 8.0 + cudnn v6.0 + python 3.6.1 + pytorch 0.3.0 + torchvision 0.2.0 1.运行过程中遇到 not found modules named “*” 把“dataloader”和“models”文件夹中的对应文件“*.py”复制到主文件夹中，再尝试是否解决了问题 2.遇到“...

2018-05-22 15:23:08 12943 315

翻译论文阅读笔记《Pyramid Stereo Matching Network》

该论文提出的算法，在2018年4月14日前仍然是KITTI排行榜的首位，并且是开源的代码，有较高的学习价值。0.摘要最新的研究表明，利用一对立体图像来估算深度信息可以格式化为一个有监督的学习任务，进而通过卷积神经网络来解决。然而，当前基于图块匹配的Siamese网络的架构，缺少利用环境信息取寻找不适定区域（遮挡区域，弱纹理区域等）一致性的能力。为了解决这个问题，本文提出了PSMNet...

2018-04-15 11:53:58 25617 51

原创浅析扩散模型与图像生成【应用篇】(二十七)——T2I-Adapter

该文提出一种根据外部控制信号引导文本图像生成的方法，外部控制信号包括边缘图、线稿图、关键点等，使生成的图像在满足文本描述的前提下，还能够符合外部控制信号提供的布局和结构。这个想法与ControlNet类似，但本文提出的方法更加高效、精简，只需要训练一个额外的小模型Adapter，无需对文本-图像生成模型（如SD）进行微调训练。

2024-05-17 16:27:29 1166 2

原创浅析扩散模型与图像生成【应用篇】(二十六)——Null-text Inversion

本文提出一种文本驱动的真实图像编辑方法，号称是首次提出对真实图像进行文本编辑的方法。为了保证生成的图像和输入图像之间的相似性，现有的扩散过程，通常使用DDIM来进行扩散。但作者发现，DDIM扩散得到的噪声图在进行无条件采样时，能够得到很好的重建结果。而当增加了无分类器的文本条件引导时，生成结果就会有很大的偏差。为了解决这个问题，作者提出了两个举措：一是使用DDIM在无条件采样过程中得到的生成轨迹作为一个中枢轨迹；二是将无分类器引导采样时用到的空文本条件，改成了一个训练得到的文本条件。

2024-05-16 20:06:50 1951 1

原创浅析扩散模型与图像生成【应用篇】(二十五)——Plug-and-Play

该文提出一种文本驱动的图像转换方法，输入一张图像和一个目标文本描述，按照文本描述对输入图像进行转换，得到目标图像。作者对输入图像进行重建，并将重建过程中的特征图和自注意力层中的相似性图抽取出来，注入到目标图像的生成过程中，从而实现对生成图像的布局、形状的约束和引导。文本的特征还是通过交叉注意力机制引入，来实现对目标图像的修改。

2024-05-15 20:40:05 1384 1

原创浅析扩散模型与图像生成【应用篇】(二十四)——Text2Live

本文提出一种文本驱动的图像和视频编辑方法。与其他方法直接对图像进行编辑的方式不同，本文提出的方法并不是基于扩散模型的，更像是一个自编码器，通过对原图编码解码输出一个新的编辑图层，再与原图进行融合得到编辑后的图像。因此本文提出的方法更多适用于修改图中某个对象的纹理，或者增加一些特效，如火焰、烟雾等，而不能修改物体的动作、布局等等。另一方面，本文将提出的方法应用到了视频的编辑应用中。

2024-05-13 21:32:29 1167

原创浅析扩散模型与图像生成【应用篇】(二十三)——Imagic

该文提出一种基于文本的真实图像编辑方法，能够根据纯文本提示，实现复杂的图像编辑任务，如改变一个或多个物体的位姿和组成，并且保持其他特征不变。相比于其他文本-图像编辑工作，Imagic具备更丰富的编辑方式，并且能够更好的保留编辑对象原有的特征。

2024-05-10 20:59:26 1058 1

原创浅析扩散模型与图像生成【应用篇】(二十二)——DreamBooth

本文提出一种根据少量样例图片来对文生图模型进行微调的方法，从而可以生成包含样例物体，但风格、姿态、背景都可以任意修改的图片。

2024-05-08 14:37:25 952 2

原创浅析扩散模型与图像生成【应用篇】(二十一)——DALLE·2

该文提出一种基于层级式扩散模型的由文本生成图像的方法，也就是大名鼎鼎的DALLE·2。DALLE·2所做的工作其实在题目里面就说的很清楚了，作者首先用一个训练好的CLIP模型，将输入的文本描述转换成潜在的文本特征，然后利用一个先验模型（Prior）将这个文本特征映射成对应的图像特征，最后有一个解码器（Decoder）生成对应的图像。层级式是因为原始输出只有64 * 64的分辨率，作者通过两个级联的上采样器将其分辨率逐步提升至256 * 256和1024 * 1024。

2024-05-06 21:44:08 1013

原创浅析扩散模型与图像生成【应用篇】(二十)——TiNO-Edit

该文通过对扩散模型中添加噪声的时刻$t_k$和噪声$N$进行优化，提升SD等文生图模型的图像编辑效果。作者指出现有的方法为了提升文生图模型的图像编辑质量，通常是引入更多的条件信息，如编辑指令（InstructPix2Pix）、边缘图、分割图（ControlNet）等。而较少有人关注扩散模型中的两个关键超参数，时刻$t_k$和噪声$N$，对于编辑效果的影响。因此，作者专门探索了这两个参数对于编辑效果的影响，并且提出一种自动寻找最优参数的优化方法。

2024-05-04 17:34:31 1184

原创浅析扩散模型与图像生成【应用篇】(十九)——Emu Edit

该文提出一种精细的由文本指令驱动的图像编辑技术，与InstructPix2Pix类似，给定一段文字修改指令就能对图像进行准确精细的修改。

2024-04-30 15:44:48 825

原创浅析扩散模型与图像生成【应用篇】(十八)——ControlNet

现有的文生图模型如Stable Diffusion通常需要人工输入非常准确的提示词，而且生成的结果还是完全随机不可控制的，只能通过生成多个结果，再从中选取最佳方案。而ControlNet的提出就有效的解决了生成结果不可控的问题，通过引入更多的条件信息，例如：边缘图、深度图、法线方向图、语义分割图等，使得生成结果更接近我们的初衷。

2024-04-29 21:09:08 1116

原创浅析扩散模型与图像生成【应用篇】(十七)——LDM

该文首次提出在潜在特征空间中的扩散模型LDM，也是大名鼎鼎的Stable Diffusion（SD）模型的基础。不同于之前的扩散模型直接在图像维度上进行扩散和去噪，LDM首先训练了一个自动编码器将图像压缩至一个潜在的特征空间中，并在该低维空间内进行扩散和去噪，最后再通过一个解码器恢复图像维度。这种方法能够大大降低计算的复杂度，提升训练和推理的速度，并且取得了更好的生成效果，已经成为后续许多图像生成方法的基础。

2024-04-28 16:44:04 1663 1

原创浅析扩散模型与图像生成【应用篇】(十六)——InstructPix2pix

该文提出一种通过文字指令直接编辑和修改图像的方法。无需给出对图像的描述，只要给出修改的指令，就可以对输入图像进行编辑和修改，并且能够保留图像原本的内容不被破坏。编辑效果和泛化能力可以说是非常炸裂了。

2024-04-27 15:57:15 1337 1

原创浅析扩散模型与图像生成【应用篇】(十五)——SDG

该文提出一种基于语义引导扩散模型的的图像生成算法，SDG，可使用文本或图像作为引导来指引图像的生成，也可以二者同时使用，实现多模态的引导。增加引导信息无需对扩散模型进行微调训练，可以直接作用在生成阶段。相对于现有的文本引导图像生成方法StyleCLIP或图像引导生成方法ILVR，SDG不仅能够适应更多模态的输入，且生成样本也具备更大的多样性。

2024-04-02 14:59:12 752

原创浅析扩散模型与图像生成【应用篇】(十四)——PITI

其思想并不复杂，就是借鉴现有视觉和NLP领域中常见的预训练方法，考虑预先在一个大规模的任务无关数据集上对扩散模型进行预训练，使其具备一个高度语义化的空间。然后，再针对特定任务对模型进行微调训练，此时微调过程只需要关注与任务相关的输入信息，而困难的图像生成工作，比如渲染一个合理布局和真实的纹理，将根据预训练时得到的知识来完成。由于扩散模型生成的结果通常分辨率较低，如64*64，因此作者也采用了一个基于扩散模型的上采样器，对生成结果进行分辨率提升。条件的引入会导致估计噪声的均值和方差发生漂移，如下。

2024-03-27 19:04:10 1126

原创浅析扩散模型与图像生成【应用篇】(十三)——GLIDE

个Token的序列，并将其输入到Transformer中，得到的token嵌入一方面将取代ADM中的类别嵌入，另一方面token嵌入的最后一层（包含。通过这样的方式实现了文本描述对去噪模型的引导。此外，作者还尝试了一种基于CLIP的引导方式，具体而言，就是利用CLIP中的图像编码器得到对应的图像特征。该文提出一种基于文本引导的扩散模型用于图像的生成和编辑，可以根据给定的文字描述来生成或编辑图像。实验结果表明，采用无分类器的文本引导方式生成效果要优于基于CLIP的引导方式，其生成效果对比如下。

2024-03-27 17:07:31 1382 1

原创浅析扩散模型与图像生成【应用篇】(十二)——DiffI2I

此外，由于很多扩散模型是直接对图像进行扩散和去噪的，这就导致模型的维度很大，计算量很高，这也导致很多扩散模型不能处理高分辨率的图像，且生成速度很慢。作者采用类似LDM的思想，不对图像直接进行扩散和生成，而是对压缩过的特征信息IPR进行扩散和生成，这就极大的提升了图像转换的效率。关于DA模块和DFFN模块的输出是怎么进行融合的，原文中我没看到，但是图中可以看出来动态Transformer块的输入和输出维度不变，那么大概率是做了一个相加的操作。是用一个全新的CPEN模型仅对输入图像进行处理得到的，如下。

2024-03-26 21:17:21 1711

原创浅析扩散模型与图像生成【应用篇】(十一)——DDIBs

此外，源域和目标域模型是可以相互转换的，即源域扩散模型，反过来也可以当作目标域的生成模型使用，这就能够实现从目标域向源域的转换。而且一个训练好的扩散模型可以跟任意的目标域生成模型结合，这就使得许多图像转换任务所需模型的数量是随着域的数量线性增长，而不是原本的二次方增长。其实讲到这里，DDIBs方法的过程和特点就已经介绍完了，下面作者又分析了其背后的理论依据，作者是从薛定谔桥问题（Schrodinger Bridges Problem，SBP）的角度来描述DDIBs的理论基础的。从对数似然的角度来看，当。

2024-03-22 15:19:12 1455 2

原创浅析扩散模型与图像生成【应用篇】(十)——UNIT-DDPM

值得注意的是，上面的介绍只介绍了一个方向的转换，也就是从源域到目标域的转换。就如我们前文所述，这个转换过程是双向的，同时也要做从目标域到源域的转换，这一点在上述目标函数中也能体现出来，因为转换过程是完全对称的，我们就不再重复介绍了。该文提出一种基于DDPM的非配对的图像转换方法，称为UNIT-DDPM，能够实现源域的图像到目标域图像的转换，在保留原有图像内容的同时，转换为目标域图像的风格，如RGB图像到红外图像的转换。并且这个转换和生成过程是双向的，就是不仅源域向目标域转换，同时目标域也向源域转换。

2024-03-20 17:35:40 1236

原创浅析扩散模型与图像生成【应用篇】(九)——Pix2pix-zero

该文提出一种无需训练，即可对图像进行文本驱动编辑的方法。在准确修改目标对象的同时，保证原图的背景和布局等内容不受太多的影响。下图展示了几种文本驱动图像编辑的效果，如将猫变成狗，将马变成斑马等。该文主要做了以下几点工作，首先将输入的图像x利用Stable Diffusion编码到潜在空间得到x0，并按照DDIM中的确定性过程将其扩散为噪声编码xinv。然后，利用BLIP模型得到输入图像对应的文本描述c，并计算其与目标文本提示t之间的均值差异Δcedit。

2024-03-08 16:27:54 1292

原创浅析扩散模型与图像生成【应用篇】(八)——BBDM

整体上而言，BBDM就是将原本扩散过程从图像到噪声的变换，改成了从目标图像到源图像的变换。虽然不用像其他条件扩散模型那样，将条件引入模型中用于训练，但在BBDM的训练过程需要成对的样本，这限制了BBDM在许多情景中的应用。作为前向扩散过程的终点和反向去噪过程的起点，那为什么上图灰色区域中前向扩散的终点是目标域的图像呢？这篇文章我读着很迷惑，从源域转换到目标域，那么根据上图的表示源域应该是真实图片，目标域是漫画图像，那么所谓的条件也就是参考图像。这样的设置，保证了当。，满足了前文所述的扩散的起点和终点。

2024-03-07 21:18:04 2566 6

原创浅析扩散模型与图像生成【应用篇】(七)——Prompt-to-Prpmpt

本文提出一种利用交叉注意力机制实现文本驱动的图像编辑方法，可以对生成图像中的对象进行替换，整体改变图像的风格，或改变某个词对生成图像的影响程度，如下图所示。之前的文本驱动的图像生成方法很难对图像的内容进行精细地编辑，哪怕只改变了一点文本提示的内容都可能让生成的结果发生非常大的改变，而无法保留原有的内容和结构。为了保留图像整体的结构，只对特定目标进行修改，有些方法通过让使用者给出要修改对象的掩码，引导算法只针对掩码的内容进行修改。但这种方式不仅非常麻烦，而且无法对整体风格进行编辑。

2024-03-06 21:13:09 1728

原创浅析扩散模型与图像生成【应用篇】(六)——DiffuseIT

基于此，提出了一种损失通过匹配key值之间的自相似性矩阵。

2024-03-05 21:48:15 1470

原创浅析扩散模型与图像生成【应用篇】(五)——SDEdit

通过使用者在原图上给出一些引导，比如在图像上涂鸦或者增加一个图块，甚至可以不给定原图，直接纯手工绘制一个涂鸦作为输入，模型就能够根据输入的带有引导信息的图像生成对应的结果，如下图所示。生成的过程基本延续了SDE的方法，作者在正文中以VE-SDE为例介绍了扩散和采样的过程，在附录中给出了VP-SDE的介绍，二者本质上是一致的。作者将SDEdit与其他基于GAN的图像生成和编辑算法进行了对比，结果表明SDEdit在多个数据集和多个指标上都超过了现有的最优的方法。按照扩散的过程逐步添加噪声，得到干扰后的图像。

2024-03-04 20:59:18 3060

原创浅析扩散模型与图像生成【应用篇】(四)——Palette

此外还引入了人类评估方式，即让人判断两张图片哪个是自然图片，哪个是生成图片，人类将生成图片误判为自然图片的比例，称为Fool Rate。在大部分任务中（图像修复和图像着色）多任务训练的效果是不如针对任务单独训练的Palette方法的，而在JPEG图像恢复任务中，多任务训练的Palette甚至取得了更好的效果。实验结果表明，在无需对任务进行单独调参和单独设计得条件下，Palette在多个任务中均取得了非常有竞争力的结果，甚至超过了许多针对任务开发的专用算法（包括基于GAN和自回归模型的）。

2024-02-29 21:54:05 1949

原创浅析扩散模型与图像生成【应用篇】(三)——RDDM

之间的扩散方向，因此其更加注重的是确定性。而噪声扩散表示扩散过程中的随机干扰，其更加强调多样性。RDDM与DDPM之间的差异如下图所示，残差信息的引入，就在最终的扩散得到的噪声中限定了一个范围，而不是完全不可知的一个随机分布。作者后面用了很大篇幅去论证了在生成过程中，去噪和去除残差的过程是部分上路径独立的。如果先去除残差，再去除噪声，则能够控制语义的变换。控制着噪声扩散的速度，并且二者之间是彼此独立的，也就是说噪声扩散和残差扩散两个过程是可以解耦的。的扩散，这里的残差信息就是退化图像。

2024-02-29 20:02:44 4172 8

原创浅析扩散模型与图像生成【应用篇】(二)——ADM

经过一系列的消融实验，作者发现除了第5个改进点，其他的改进方案都能一定地提升模型的生成能力，实验结果如下表所示。二是提出一种类别引导的条件生成方法，通过在多个数据集上的实验结果表明，改进后的扩散模型无论在无条件生成还是条件生成任务中都取得了媲美甚至超过GAN的性能。如下图所示，由于FID和sFID综合考量了生成样本的保真度和多样性指标（数值越低越好），因此其随着。最后，作者在LSUN和ImageNet两个数据集上，将本文改进的方法ADM与其他基于扩散模型的方法和基于GAN的方法进行了比较，其对比结果如下。

2024-02-29 20:01:19 2031

原创浅析扩散模型与图像生成【应用篇】(一)——ILVR

本系列文章介绍了基于扩散模型在图像生成领域应用相关的论文，排名不分先后。

2024-02-26 11:34:22 1980

原创浅析扩散模型与图像生成【理论篇】（五）——IDDPM

该篇文章《Improved Denoising Diffusion Probabilistic Models》（IDDPM）是对DDPM中存在的问题进行了多方面的改进和试验，显著提升了生成样本的对数似然指标（这是基于似然的图像生成领域最广泛使用的指标之一，表征模型拟合数据分布的能力），使用更少的采样步骤就达到了接近最佳的生成效果。是以线性方式变化的，这样做带来的问题是图像会很快就变成纯噪声，导致后面的许多扩散步骤都是无效的，如下图中第一行的图像所示。进行训练的，且每个时刻的损失权重是相同的。

2024-02-24 16:32:07 1712

原创浅析扩散模型与图像生成【理论篇】（四）——DDIM

之前在介绍DDPM时，我们提到DDPM的扩散和重建过程都是一个马尔科夫链，是基于一阶马尔科夫假设的，即当前的状态转移只与前一个状态有关。而且为了保证扩散和重建的效果，T的取值往往很大，如1000，这造成一个严重后果就是重建过程非常慢，远远滞后于GAN，VAE等方法。作者的实验结果表明，仅需要50步采样就能够达到DDPM1000步采样时90%的生成效果，综合速度提升可达10~50倍，还是非常显著的。但这样一步到位的方式，显然太过于粗放，得到的结果肯定也是非常差的，因此在DDPM中是先估计得到。

2024-02-23 16:23:43 671 1

原创浅析扩散模型与图像生成【理论篇】（三）——SDE

至此，我们已经完整的介绍了DDPM、NCSN和SDE三个基于扩散模型的图像生成工作，这三个工作也是整个扩散生成领域的理论基础，后续的众多工作都是在此基础上进行改进和应用。后面，我们将介绍两个基于DDPM的改进工作：DDIM和IDDPM。

2024-02-22 21:36:53 1886

原创【论文写作】英文中的关联词

Firstly / First and foremost: 首先Initially: 最初To begin with: 开始Next / Secondly: 其次Subsequently: 随后In addition: 此外Furthermore: 此外还Additionally: 另外Moreover: 此外还Lastly / Finally: 最后。

2024-02-21 20:51:57 1298

原创浅析扩散模型与图像生成【理论篇】（二）——NCSN

如下图所示，图中黑色的小箭头就表示对数密度函数的梯度，只有绿色区域内的估计结果才可靠，而在占据数据分布的绝大部分区域（红色区域）则是不可靠的，这将导致随机采样的初始样本很难移动到目标分布中。使用不同级别的噪声对原始分布进行干扰对应了DDPM中的扩散过程，训练一个NCSN模型来估计分数对应了DDPM中的噪声估计网络，使用退火朗之万动力学模型来生成目标分布内的样本对应了DDPM的采样过程。随着步数的增加，噪声也越来越小，以减少对目标分布的干扰，且每次移动的步长也越来越小，最终得到一个目标分布内的样本。

2024-02-21 14:54:54 1478

原创浅析扩散模型与图像生成【理论篇】（一）——DDPM

写在最前面：近几年扩散模型已经逐步取代GAN、VAE等模型成为图像生成领域最炙手可热的研究方向，本文从基础理论的角度出发，简要的介绍一下扩散模型在图像生成领域的几个代表性工作，包括DDPM、DDIM和NCSN等。为保证文章的可读性，本文将尽可能避免具体的公式推导和证明，使用更加通俗易懂的方式来介绍相关内容。 DDPM NCSN SDE DDIM IDDPM Ho et al. [1] 和 Song et al. [2] 分别从图像去噪（DDPM）和估计数据分布梯度（NCSN）的角度出

2024-02-20 18:50:56 1993

原创【论文写作】如何表示增长和降低

在英语中表示增长和降低含义的词汇

2023-03-30 20:33:04 2509

立体匹配相关.zip

空空如也