奔跑的汉堡包-CSDN博客

原创 Multi-Concept Customization of Text-to-Image Diffusion # 论文阅读

训练数据除了特定的角色和场景，还额外引入了特定角色/场景相关联的图片，这样做是为了防止 language shift 现象，即所有关联词都生成特定的图片。2022 年 12 月 CMU + 清华 + adobe 的文章。提出一种基于几张图片做 ip 保持的方法，可以支持多个 ip 出现的同一张图片里面。训练过程其实没有啥特别的地方，只 finetune 模型中的 cross attn（里面的 K、V），并且特定任务会增加 rare token。

2024-07-10 14:52:35 314 2

原创 DiT：Scalable Diffusion Models with Transformers # 论文阅读

上帝视角看的神作 DIT 架构，22 年 12 月 META（伯克利+新乡大学）发布，一个取代了 Unet 的全 transformer diffusion 生图架构。

2024-05-31 10:54:54 378 1

原创 Mix-of-Show: Decentralized Low-Rank Adaptation forMulti-Concept Customization # 论文阅读

URL。

2024-05-31 10:54:29 492

原创 FastComposer: Tuning-Free Multi-Subject ImageGeneration with Localized Attention # 论文阅读

主页：https://fastcomposer.mit.edu/

2024-05-31 10:54:24 739

原创 SWAPANYTHING: Enabling Arbitrary ObjectSwapping in Personalized Visual Editing # 论文阅读

主页：https://swap-anything.github.io/

2024-05-31 10:54:12 400

原创 ConsistentID : Portrait Generation withMultimodal Fine-Grained Identity Preserving # 论文阅读

2024 年 4 月 lenovo 的文章，面向的任务是面部 ID 保持。整篇文章看下来核心应该是提出的面部一致性保持数据集，大约有 50w 张面部图片。另外文章也说提出了一种面部保持的方法（作为 baseline），可以基于一张参考图实现面部一致性生成。核心贡献是优化了面部特征的打标过程，同时引入面部细节的 attention 机制保证面部特征的一致性。作者表示，已有的方法生成的图片，尽管看上去脸的结果和参考图长得差不多，但是细节的保持做的仍然不够好，如下图（一些细微的特征）

2024-05-28 16:44:34 390 1

原创 MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytellingvia # 论文阅读

港科大 + 华南理工大的文章，要解决的任务是非典型比例的图片（比如长画卷、漫画书等）生成。利用文本、语义、位置等不同的控制方法，来生成想要的图片大小，以及精准控制每一部分的图片内容。城市里，警方遇到了怪兽，蜘蛛侠前来迎战。在未来的异世界，一名战士踏上了他的旅程。结果展示可以参考上文的图片。浮城旁，英雄遇瀑布美人。

2024-05-28 16:42:12 440

原创 Generate Anything Anywhere in Any Scene #论文阅读

所以在 dreambooth 推理的时候就会过拟合这部分学到的知识（不仅是 dreambooth，大部分需要 finetune 的方法比如 lora 都会有这个问题）围绕 ip 保持做的扩展任务，核心目标是对指定 ip 可以生成任意大小的（指定 ip）、任意背景的图片，同时可以通过 bbox 控制物体位置和多物体生成。当然，如果直接组合会出现如下图所示的问题，即生成的位置需要符合 dreambooth 训练数据的分布，如果出现在非训练数据的去他位置（或者其他比例）则会导致生成失败。

2024-05-28 16:41:12 574

原创 Training-Free Consistent Text-to-Image Generation # 论文阅读

来保证多图间的主体一致性，另外通过一些 trick 保证生成图片分布的多样性和 layout 的多样性。本方法可以保证不需要任何额外训练或 finetune 的情况下，完成主体保持的人物，同时相比其他需要训练的方法有更好的文本对齐能力。提出了一种不需要任何额外训练的主体保持方法，可以一次生成的 batch 中，通过多个 prompt 生成对应的多张图片，这些图片都可以拥有一个主体。另外文章提到即使在 self-attn 之间共享的只是 mask 提取到的主体，但是仍然会出现生成图片分布过于一致的问题。

2024-05-25 10:17:40 736 1

原创 Improving Diffusion Models for AuthenticVirtual Try-on in the Wild # 论文阅读

主页：https://arxiv.org/pdf/2403.05139。

2024-05-25 10:07:30 308

原创 KOSMOS-G: Generating Images in Contextwith Multimodal Large Language Models # 论文阅读

MLLM training：文中使用的是 MLLM 是 from scratch 做的预训练，训练数据包括纯文本、多模态数据对、交错多模态数据（interleaved multimodal data）。其中 encoder 使用的是 CLIP，训练时只打开最后一层的梯度，decoder 部分没有具体的结构，只提了一下有 24 层，MLLM 总参数两 1.6B。图像生成任务常见的由 t2i、i2i 两种，而本文面向的任务是多模态输入。本文的重点是怎么把 MLLM 的输出，和 SD 的输入合理的连到一起。

2024-05-21 15:27:59 389 1

原创 AnyDoor: Zero-shot Object-level Image Customization # 论文阅读

主页：https://github.com/ali-vilab/AnyDoor。

2024-05-21 15:27:35 879

原创 Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation # 论文阅读

提出的是一种 training-free 的方法，通过 prompt + location 控制生成多个主体，作者表示提出的方法可以有效避免（外观相似、语义相似的）多主体之间纹理混淆的问题，可以有效独立的控制各个主体生成。每一层都会引导 self-attn、cross-attn 只关注于该物体 bbox 内的特征，通过一组科学的参数引导 bbox 外的特征尽可能为 0。去噪时，bbox 只是提供一个大致的参考位置，给模型用来再前几个 step 生成全局的信息。的时候，特别容易出现多物体之间的混淆问题。

2024-05-19 22:07:16 450 1

原创 DIFT：Emergent Correspondence from Image Diffusion # 论文阅读

主页：https://diffusionfeatures.github.io/代码：https://github.com/Tsingularity/dift。

2024-05-13 22:00:16 458 1

原创 MotionDiffuse: Text-Driven Human Motion Generation withDiffusion Model # 论文阅读

主页：https://mingyuan-zhang.github.io/projects/MotionDiffuse.html。

2024-05-10 02:01:17 595

原创 Adversarial Synthesis of Human Pose From Text # 论文阅读

输入的是描述动作的 text，通过 text encoder（本文用的是叫做 fastText 的方法），把输入的自然语言转化成固定长度为 300 的 vector。模型输出的 pose 是以 heatmap 形式给出，然后经过后处理得到 joints 图片（与传统的 pose 检测方法输出形式是对齐的）数据集用的是 COCO，天然包含 17 个点的 skeleton 标注，和自然语言描述的 caotion（可以拿来直接训练一波试试）生成的结果如下，第一行是 gt，下面三行是不同的 noise 生成的。

2024-05-10 02:00:14 266

原创 Language2Pose: Natural Language Grounded Pose Forecasting # 论文阅读

19 年 7 月 cmu 的文章，提出一种基于 natural language 生成 3D 动作序列的方法。通过一个简单的 CNN 模型应该就可以实现。看起来训练时候文本的分布多样性还是可以的。使用的训练数据集是一个开源的。

2024-05-10 01:59:33 333

原创 SDXL: Improving Latent Diffusion Models forHigh-Resolution Image Synthesis # 论文阅读

Stability AI 7 月份发表，是一篇报告性的文章，对 SDXL 做了详细的介绍。因为是一个简单的技术报告，就只给出了少量的图示。花了一大段篇幅喷 MJ ，hahhh。

2024-05-10 01:59:00 603

原创 IP-Adapter: Text Compatible Image Prompt Adapter forText-to-Image Diffusion Models #论文阅读

文章的 ppl 如下图所示，对每一层都加入了一个新的 cross attn 层，用来注入参考图的 img 信息，与原来用于注入 text condition 的 cross attn 是并行关系，两者的 feature 直接相加。通过一张参考图片来实现风格/ip 注入，来完成风格控制或者主体保持的任务。具体的实现方法是引入一个额外的 cross attn 模块来实现 img 的注入，和原本注入 text 信息的 cross attn 是并行关系。由于整体的思路比较简洁清晰，所以不做过多赘述。

2024-05-07 00:02:51 223

原创 TheaterGen : Character Management withLLM for Consistent Multi-turn Image Generation 论文阅读

在这一阶段，利用 LLM，根据用户输入的要求，把对应 prompt 的信息做格式化，格式化的输出包含了背景 prompt、neg prompt，另外最核心的部分是各个主体的 prompt。根据第一阶段给出的主体 prompt，用 T2I 模型生成一张对应角色的参考图片，这张参考图后续会通过 ip-adapter 来注入模型。2024 年 lenovo 的文章，面向的任务是多轮对话生成连续故事图片，是一个 training-free 的方法。本文提出的 ppl 如下图，可以分为三个阶段。

2024-05-06 02:39:43 769 3

原创 STORYDIFFUSION: CONSISTENT SELF-ATTENTIONFOR LONG-RANGE IMAGE AND VIDEO GENERATION # 论文阅读

随机采样之后，对采样后的特征计算 K、V，采样前的特征计算 Q，完成一次正常的 self-attn 过程。另外作者还针对长视频故事生成的问题，提出了一种 semantic space temporal motion prediction module，这个模块经过额外的训练之后，可以显著提升视频的连续性，和主体的一致性。ppl 分为两个部分，第一部分是 self-attention 来实现连续故事图片生成，第二部分是利用本文提出的 motion module + 第一阶段的故事图片来生成完整的故事视频。

2024-05-05 23:24:50 901

原创 nuScenes数据集标注格式

总结了一下nuScenes数据集的标注格式，以及一些比较基本的使用，持续更新

2020-01-02 12:56:10 19810 66

原创 pytorch 如何通过图像深度连续性计算Loss

单目深度估计中，利用图像连续性约束深度是一个很常见的操作，介绍一下如何用pytorch来实现

2019-12-12 11:38:23 1619 1

原创论文四连读（4）交通监控视频中的无内参测速方法 Automatic Camera Calibration for Traffic Understanding

本文主要讲了如何在一段没有任何相机内参和外餐的监控视频中进行测速，利用了一些车辆真实长宽高、地面标志线间距的先验知识。总的来说方法非常值得参考，鲁棒性很高。

2019-11-21 16:08:55 1571 11

原创 Learning Depth from Monocular Videos using Direct Methods 论文阅读 #paper reading

这篇论文是博主在读之前发的一篇论文Digging Into Self-Supervised Monocular Depth Estimation的源码时候看到的，上述论文作者的源码里面，在计算loss的时候提到了这篇文章，所以比较好奇就来读一读。

2019-11-19 21:01:51 373

原创论文四连读（3）利用消失点进行相机标定 Fully Automatic Roadside Camera Calibration for Traffic Surveillance

四篇论文中的第三篇。这系列的论文是从直线检测到无内参相机测速的相关论文，这一篇主要讲的是根据三个正交的消失点完成相机的标定的方法。

2019-10-16 17:10:48 2920 21

原创 Digging Into Self-Supervised Monocular Depth Estimation 论文阅读#paper reading

SFM（Structure From Motion）的思想被越来越多的借鉴，用于无监督（自监督）的深度估计、姿态估计中。自SFM的开篇之作之后，各种motion相关的改进和新作不断出现。这篇文章，就是在motion搭框架的基础上，对各种结构模块做了一些改进，结果取得了非常大的进步。文章并没有做网络上或者方法上突破性的创新，甚至可以说都是沿用了一些现有的模块和思想，但是一样获得了不错的结果。...

2019-10-16 15:07:27 4309 20

原创 ILSVRC14双雄，VGG和GoogLeNet（Inception v1）论文阅读及理解

CNN的优化，大概分为两类，一类是在深度上做文章，一类是在宽度方面设计改进。早期的CNN优化，基本都是对深度的向下挖掘，增加深度确实可以非常有效的增加模型的效果，但同时也会带来一些非常明显的问题，如梯度消失、参数爆炸等等...

2019-09-29 20:31:05 652

原创总结一下Hough变换和最小二乘法的异同

面试常见的问题之一，hough变换和最小二乘法的区别是什么（相似之处）？**从相似点考虑，**Hough变换和最小二乘法都是常见的直线检测、直线拟合方式之一，他们都是从一些点里，找到能够拟合这些点最好的直线。不同点呢：1、最小二乘法是统计学方法，常用于数据统计和数值分析方面，而Hough变换则是传统的图像处理方法，是从二维的图像入手的。2、最小二乘法拟合的是一条直线，且只能拟合一条直线；而...

2019-09-14 16:44:00 2557

原创 MobileNet 论文阅读 #paper reading

最近做笔试题考了一道这样的选择题：用CPU和GPU分别跑以下网络，如果时间分别为X和Y，以下哪个网络的X/Y最大？**A、**AlextNet **B、**VGG19 **C、**ResNet101 **D、**MobileNet仔细一想，其实就是考察哪个网络的参数最多，需要的计算量最大，其实这些网络差别还是比较大的，特别是ResNet，网络非常深，所以不需要具体的计算参数量，只需要大体的计...

2019-09-14 15:47:42 242

原创 ILSVRC15 夺冠神器，ResNet论文阅读

论文地址：https://arxiv.org/pdf/1512.03385.pdf作为ILSVRC15年的冠军，Kaiming大神一贯落实着不发则已，一发惊人的论文生产准则。最近静下心来仔细研究一下这篇论文，个人认为Kaiming是一个很看重问题本质的学者，他发的论文都会从问题的最本质的原因入手，比如Focal loss的提出、Faster RCNN的加速点、Mask RCNN的突破性创新等等。...

2019-09-05 11:29:44 405

原创 Mask RCNN 论文阅读 #paper reading

实例分割，是将物体检测和语义分割两者结合的任务，目的是在语义分割的同时，即便同一个类的物体之间，也会区别不同的个体。比如道路上两辆车，语义分割会将这两辆车划分为同一个颜色，也就是同一类;而实例分割则会将这两辆车划分为两个颜色，区别出这两辆车。这篇文章便给出了一个很简单、可扩展，并且稳定性高的模型——Mask RCNN，来进行实例分割，这个模型还是以Faster RCNN为基础的（手动佩服Kaim...

2019-08-24 15:41:21 253

原创论文四连读（2）利用菱形空间检测照片中的消失点 Real Projective Plane Mapping for Detection of Orthogonal Vanishing Points

四篇论文中的第二篇。这篇论文主要讲的是如何利用级联的霍夫变换（平行坐标系）完成图片中消失点的检测。

2019-08-20 20:44:03 1458 6

原创读书笔记（2）九章算数

2018.8.14 周三我觉得像我这种小弱鸡，还是看一些我更能理解的东西比较好。所以昨天看完《从祖先到算法》之后，随手抄起了另一边的九章算数，开始了膜拜古人之旅。毕竟这本书对刷题有很大的帮助，确实能够拓宽自己的思维。每天看一点，收获一些新的东西。一、昨天看到的是两个数快速计算公约数，使用辗转相减法。公约数的计算，对于一些小的数，确实比较简单，但一旦涉及大数之间的最大公约数计算，特别是程序里面的...

2019-08-14 14:18:49 294

原创为什么sigmoid激活函数，使用交叉熵损失函数更好。详细推导过程：

sigmoid+交叉熵为什么更好，这是困扰了我大半天的问题，网上所有的教程都直接给出了最后一部的结果，我手推了好久，终于醒悟，下面附上详细的推导过程：首先，我们定义并简化一下公式：[a=\sum_{i=0}^{N} ( Wx^{i} + b)]&&L(a)=\sum_{i=0}^{N}&&...

2019-08-13 16:00:55 4992 3

原创读书笔记（1）：从祖先到算法

每天吃完饭，撑的受不了，于是屁颠屁颠跑到楼下网红书店蹭书看。争取一周看完一本书，写点东西记一下吧。本来想找《从掷骰子到阿尔法狗》这本书，结果居然没有= =！随手拿了一本刚出版不久的书《从祖先到算法》。每天记一下读书的心得和觉得有意思的地方吧。这本书是从人类起源讲起，一直讲到人类发展的规律对现代实物发展的一些影响。

2019-08-01 14:27:20 400

原创论文四连读（1）图像中的直线检测 PClines - Line detection using parallel coordinates

四篇论文中的第一篇。本论文主要讲的是利用平行坐标系完成对照片的直线检测的过程。替代了传统的霍夫变换，在效率方面有了较大提升。

2019-08-01 00:49:11 1338 4

原创 torch.nn.functional.grid_sample

关于grid_sample这个函数，我没有在pytorch的中文文档中找到，在英文文档里面是有的：https://pytorch.org/docs/stable/nn.html#torch-nn-functional。grid_sample这个函数的作用，是将一个source_image，通过双线性插值的方式变换到另一个大小指定的target_image中。torch.nn.functiona...

2019-04-16 20:48:51 8630 2

空空如也

空空如也