Kun Li-CSDN博客

原创 Enhancing prompt following with visual control through training-free mask-guided diffusion

当用户只能提供部分对齐的提示-图像对时，上图中，canny模式仅与部分prompt对齐，导致了生成的图像中缺少了像花和草这样的元素，物体的属性也有错配。随后，controlnet的输出被合并到unet的中间层和解码块上。在controlnet训练中，视觉和文本控制是完全对齐的，然而，当prompt包含不是视觉控制的空间组合的对象时，生成的结果可能无法描绘这些对象，生成对象mask，在指示在视觉控制中遵循prompt的特定区域，应用这个mask来引导controlnet专注于该区域，确保额外的prompt。

2024-08-17 14:38:00 40

原创水印去除方法

作者说一个好的架构应该在网络中具有尽可能广泛感受野，resnet的感受野增长缓慢，卷积核通常很小，感受野在早期可能不足，对于高分辨率图像效果不好，傅里叶卷积是完全可微的，是传统卷积的替代品，由于覆盖整个图像的感受野，傅里叶卷积允许生成器网络从早期开始考虑全局上下文，并且能够很好的捕获非常常见的周期性结构，比如砖，梯子，窗户等，在所有频率上共享相同的卷积会使模型朝着尺度协方差方向移动。6 款超好用的免费图像去水印工具_apeaksoft free watermark remover-CSDN博客。

2024-08-15 14:03:52 613

原创 Cross-Image Attention for zero-shot appearance transfer

3.利用AdaIN来对齐外观图像和输出图像的统计信息，更好的保留外观图像的颜色。更具体的说，给定一张外观图和一张结构图，首先将这两张图反向转换到一个预训练的文本到图像的扩散模型的隐空间，然后在去噪过程中的每个时间步，通过将与结构图相对应的q乘以外观图像的k来计算修改后的自注意力图，这种跨图像操作在两个图像之间建立了隐式的语义对应关系，而无需额外的监督，将输出的跨图像的注意力图与外观图的v相乘，就可以准确的外观图中的每个像素转移到结构图中相应的，语义相似的像素上。

2024-08-14 15:09:37 206

原创 stable diffusion reference only:Image prompt and blueprint jointly guided multi-condition for paint

无法将从新图像中直接提取的概念应用于生成。训练数据是两种相似的图，本文就是controlnet的精简版本，controlnet训练时估计也是类似的做法，相似图的生成训练时也一定是成对的相似图输入，只不过如果采用controlnet的方法，额外的图像输入分支就是controlnet分支来完成的，如果不是controlnet方法，那额外输入的分支就可以是类似clip的方法。在电商领域，这个功能其实很有应用场景，用户在获得一个基础的电商图之后，总希望在这个电商图基础上获取一系列风格相近的图。

2024-08-14 11:08:27 220

原创 FastApi做高效转发服务

但是将client封装到服务侧就有问题了，我希望实现这样一个高效转发的功能，外部的请求到了client，立即转发到服务侧，来一个转发一个，同时不用等待服务侧的返回结果，当服务侧返回之后，client再通过Fastapi返回，其实我在Fastapi侧可以通过启多个进程来转发，不过进程有可能需要等待服务侧的返回结果在进行下一侧转发是很低效的。相反，异步编程允许程序在等待某个任务完成的同时，继续执行其他任务，从而提高程序的效率和响应速度。

2024-08-12 19:24:34 85

原创 diffusers中的cross-attention实现

在models/unets/unet_2d_condition.py中，如何在Unet中将原注意力类替换，Unet中的attn_processors属性会返回一个词典，key是每个处理类所在的位置，down_blocks.0.attentions.0.transformer_blocks.0.attn1.processor，value是每个处理类的实例。KV如果替换成来自另一幅参考图像的特征，这样的话，扩散模型生成的图片会既和原本要生成的图像相似，又和参考图像相似。

2024-08-09 10:12:08 128

原创 ZeST:Zero-shot material transfer from a single image

1.材料迁移的明确方法需要理解示例和输入图像中的许多物体级属性，例如几何形状和光照。最终的分支主要保留输入图像中的光照和背景，在生成过程中，在隐空间latent space中提出了双重光照指导，一个修复模块和一个前景取色过程，除了附加的IP-Adapter和Controlnet，采用了一个修复扩散模型S，而不是标准生成器。材料转移，最近的方法通过在3-5张材料示例微调扩散模型，以捕捉隐空间中的纹理材料，来解决与网格上的纹理合成相关的问题，ZeST只需要一张材料示例图和一张输入图像，zero-shot。

2024-07-30 18:04:55 81

原创 [SaaS] 美团外卖AIGC视觉创意的探索和实践

在大规模的美食图片生层落地中，控制条件的选择存在通用性和多样性之间的tradeoff，通用性控制指的是符合所有用户需求的默认生成控制条件，例如去除文印，文字等，多样性是针对不同美食品类，进过控制参数调优选取最佳的图片生成控制参数，例如饱和度，亮度，色度等，多样性很难控制，在训练中去除了亮点，色度、饱和度等，将四个控制条件的连续数值按照取值范围离散化为prompt控制。菜品名中存在无明确菜品实体（星际漫游，全熟C等），中文菜品模型容易将其理解为字面的中文含义，而非菜品语义，导致生成图像不对，异常；

2024-07-30 15:10:20 140

原创 [SaaS] 多模态预训练模型在oppo端云场景的落地实践

多模态预训练模型在 OPPO 端云场景的落地实践https://mp.weixin.qq.com/s/rv2TI_PK5_rSoV_JRIUjfg

2024-07-27 14:47:04 56

原创 [SaaS] 盒马设计-＞AI如何为企业经营创造价值

AIGC能力不仅仅是设计师的效率工具，也可以当好企业的大脑，帮助构建企业自己的数字化设计工作流，让设计资产和数据发挥更大价值。D20【AIGC x 零售】AI设计如何为企业经营创造价值？

2024-07-27 09:44:22 53

原创 PaliGemma：A versatile 3B VLM for transfer

保持图像编码器不变是常见的做法，图像注释和其他更难学习的任务能够为图像编码器提供有价值的信号，使其学会空间和关系理解能力，这通常是clip或者siglip缺乏的，不再冻结图像编码器，为避免来自最初未对齐语言模型的破坏性监督信号，我们对图像编码器使用缓慢的线性升温，确保图像编码器的质量不因lmm传递归来的初始错误对齐的梯度而降低。图像分辨率为固定的正方形，224，448，896，这导致每种模型都有固定数量的图像token，256，1024，4096。对于448，训练了50M个示例，对于896，再添加10M。

2024-07-26 19:04:46 67

原创 Florence2:Advancing a unified representation for a variety of vision tasks

quad box表示：(x0，y0，...，x3，y3)，对于文本检测和识别任务，包含文本的四边形的坐标的位置信息token，多边形表示：（x0，y0，...，xn，yn）分割任务。视觉物体区域的文本注释通过从图像到文本模型生成的裁剪图像区域的简要文本做进一步丰富，每个区域随后接受三种文本注释，来自物体类型的短语，简要文本和来自简要文本的名词短语块，florence1确定每个图像区域最相似的文本注释。三个关键任务，图像语料库的主要来源，图像分类，目标检测，图像描述。我们的主要目标是生成全面的注释。

2024-07-26 17:45:02 177

原创 how far are we to gpt4v: closing the gap to commercial multimodel models with open source suites

在训练过程中，实施了一种动态分辨率策略，根据输入图像的长宽比和分辨率，将图像分为448x448，块的范围1-12，在测试中，可以进行zero-shot扩展到40个block，即4K，为了增强高分辨率的可扩展性，采用了像素重排pixel shuffle，将视觉token的数量减少为原来的四分之一，与nn.pixelshuffle相反，nn.pixelshuffle是把图像变大，通道变小，此处的pixelshuffle是把通道变多，图像变少了，16x16=256个。

2024-07-25 11:22:34 643

原创 Efficient multimodel learning from data-centric perspective

1.通过k均值聚类所有的2B图像embedding，然后在每个culster中构建了一个无向图，只要其余弦相似度超过了预定阈值，任何两个嵌入就相互连接，在每个连接子图中，仅保留到cluster中心的欧几里得距离排中位数的一个样本，通过将阈值设置为0.86，获得了一个子集952M，微调：利用SVIT-mix-665K，并用WizardLM-evol-instruct-70K替换了SHareGPT-40K，得到了Bunny-695K。预训练：Bunny-pretrain-LAION-2B；

2024-07-24 13:58:35 57

原创 ocrbench：on the hidden mystery of ocr in large multimodel models

文本识别，场景文本中心的视觉问答Scene Text-Centric VQA，文档导向的视觉问答 Document-Oriented VQA，关键信息提取 Key Information Extraction，手写数学公式识别。包括文本识别、场景文本中心的VQA、文档导向的VQA、KIE和手写文本识别，包括1000个问答对，KIE，prompt：直接使用图像中的文本回答这个问题。ChartQA：共9608个人工编写的问题包括了4808个图标，以及17141个图标的人工编写的总结中生成的23111个问题。

2024-07-23 15:06:49 133

原创多模态中的高分辨率如何处理？

大多数现有的LMM使用静态分辨率对图像切片进行编码，只有几个固定形状切片可用，静态切片分辨率必然导致填充或形状扭曲的缩放。llava1.5架构，CLIP-VIT-L/14，默认分辨率336x336，Vicuna13B，共享视觉重采样器作为投影层，其中可学习query数量为64，对子切片为64x（N+1），N最大为6，支持最大分辨率为672x1008，两阶段训练，第一阶段，仅调整感知器重采样器，使用CC-5095K数据训练1epoch，AdamW，1e-3，余弦学习率，bs=256，8xA100 5小时。

2024-07-17 15:52:08 338

原创 MiniGemma

token num增加，效果也提升。

2024-07-15 20:22:24 63

原创 MiniCPM-V

预训练：几百million；sft：几millon。ocr合成数据很多；sft数据大头都是开源的。图像编码用的siglip。sft，难一点的几千条。

2024-07-15 20:01:54 315

原创 FastAPI包算法服务

有三个提供的接口，分别是数据拉去的接口，算法处理完，进行图片上传，上传之后告诉调用方，数据已处理完成。常规包算法服务，就是比较简单，直接起一个fastapi就可以了。

2024-07-15 17:44:12 394

原创视觉/AIGC-＞大语言模型

注意力满秩，双向attention的注意力矩阵容易退化为低秩状态，而causal attention的注意力矩阵是下三角矩阵，必然是满秩的，建模能力强；encoder-only主要是mlm，不擅长做生成任务，decoder主要是next token prediction，兼顾理解和生成；11.transformer中encoder和decoder的区别？8.在softmax之前需要对attention进行scaled，为什么除以dk的平方根？10.transformer中的LayerNorm，什么位置？

2024-07-15 11:54:12 63

原创视觉/AIGC-＞多模态

面经

2024-07-15 11:53:58 659

原创视觉/AIGC-＞扩散生成

新的生成过程不再依赖显式的classifier，训练时，classifier-free guidance需要训练两个模型，一个是无条件生成模型（DDPM），一个是条件生成模型，这两个模型可以用一个模型表示，训练时只需要在无条件生成时将条件向量置为零即可。lora 本身假设模型是过参数化的，有更小的一个内在维度，模型在训练过程中的改变是低秩的，lora就是去学习这个改变量，lora的生成和泛化能力依然来源于原始的模型。DDIM非马尔科夫变体，去噪的步骤可以更少，有一个噪声表，通过更少的步骤获得更好的效果。

2024-07-15 11:53:45 193

原创视觉/AIGC-＞传统CV

4.OCR方案，一般是先出检测框，再出文本，不规则文本，如何解决？8.transformer相比cnn的优势？3.假新闻，图是真的，caption场景？收集一些面经上的东西，供自己学习和进步。11.SAM的prompt有哪些？检测：dbnet，识别：crnn。9.介绍detr中的query？10.SAM效果好的原因？2.自驾，感知端到决策端。5.OCR数据如何生成？

2024-07-15 11:53:33 110

原创视觉，多模态，AIGC经验贴

7. SAM的prompt有哪些，可以怎么运用 8. recall和precision的区别（强调不要背公式，讲自己的理解） 9. 代码环节：手搓multi-head attn 10. 聊了一个项目的详细情况百度： 1.围绕项目涉及到的技术进行提问 1. SD的结构（VAE，DDPM，U-Net，Text Encoder几个模块） 2. DDPM和DDIM有什么区别 3. 为什么DDIM解决了DDPM的不足，他两谁是子集谁是母集 4. L1和L2有什么区别，各自的优缺点？腾讯算法岗面试，问的贼细！

2024-07-15 11:53:08 1065

原创大模型时代的目标检测

也是开放集任务，相比于 open set，需要知道不在训练集类别中的新预测物体类别。这类模型通常都需要接入文本作为一个模态输入，因为开放词汇目标检测的定义就是给定任意词汇都可以检测出来。这个任务是指在实际应用上可以检测任何前景物体，但是有些不需要预测类别，只要检测出框就行。在很多场合也有应用场景，有点像类无关的增量训练。训练时候通常是要确保训练集和测试集的类别不能重复，否则就是信息泄露了，但是训练和测试集图片是否重复其实也没有强制限制。

2024-07-12 11:37:47 613

原创 VALSE2024 多模态大模型

【VALSE2024】0507《Workshop ：多模态大模型》_哔哩哔哩_bilibili。

2024-07-11 15:23:06 107

原创 text prompt如何超过77个词

sd中，token最多75（77个，包括起始和结束符），将其扩展到225，clip接受的最大长度是75个token，因此在225的情况下，需要将其分成三段，调用clip，然后连接结果。clip将文本转换为特征，sd中使用clip最后一层输出，但可以更改为使用倒数第二层的输出，NovelAI称这将更准确的反应提示，在sd2.0中，默认使用倒数第二层，不要指定clip_skip。【深度学习】sdwebui的token_counter，update_token_counter，如何超出77个token的限制？

2024-07-11 10:13:21 658

原创 lora训练调参

Stable Diffusion 文字生成图片的教程已经很多了。这篇文章是讲解如何用 Kohya Trainer 在 Google Colab 上训练一个 LyCORIS 模型。在读之前希望你已经至少玩过 Stable Diffusion。Stable Diffusion 训练指南 (LyCORIS) | Coding Husky。面试中遇到的问题，把lora训练中的几个重点参数记录一下。

2024-07-10 11:24:07 160

原创控ID生成-＞facechain

首先，为了更针对性提取人脸的ID信息并保持部分关键人脸细节，并且更好适应Stable Diffusion的结构，FaceChain FACT采用在大量人脸数据上预训练的基于Transformer架构的人脸特征提取器，抽取其倒数第二层的全部token，后续连接简单的注意力查询模型进行特征投影，从而使得提取的ID特征兼顾上述三点要求。”，对应的训练数据为多张该人物ID的形象图片。该模式的效果与训练数据的规模成正相关，因此往往需要庞大的形象数据支撑以及一定的训练时间，这也增加了用户的使用成本。

2024-07-10 10:11:21 521

原创 lora/lycoris

根据之前的一些工作，发现大模型其实是过参数化的，有更小的一个内在维度，于是文章做了一个假设，模型在任务适配过程中，参数的改变量是低秩的，在训练过程中，lora单独去学习这个改变量，而不是去学习模型的参数，通过把最终训练得到的参数分解为原参数W0和该变量deltaW进行相加，论文假设deltaW是低秩的，把deltaW进一步拆分为低秩矩阵A和低秩矩阵B，如图1所示，而在推理的过程中，由于模型参数已经固定不再变动，这时候把模型的改变量直接放到模型里，这样在推理的计算过程中，就避免了一次额外的矩阵乘法开销。

2024-07-08 11:18:53 62

原创大语言模型推理参数

T越大越发散，T越小，越稳定，温度嘛，其实就是在softmax中增加了一个T，常见做法。true，模型在生成文本时使用采样方法，而不是直接选择概率最高的下一个token。从概率最高的token开始累计，直到累计的概率超过了top p。只考虑概率最大的topk个token。

2024-07-05 17:04:47 166

原创 HunyuanDiT训练

V100上不支持flash attention，但是可以在入参中取消use_flash_attn。

2024-07-03 09:35:52 72

原创 LLaVA1.5训练数据和时间分析

全量微调，非lora跑不起来啊,以前一直用swift，llama-factory这种框架式的代码库，但用原作者开源的代码也是有很多好处的。_llava sft。lora，全量微调不用zeros3_offload.json跑不起来，2张A800，训了1个epoch，per_device_train_batch_size=16，gradient_accumulation_steps=1，cosine，lr=2e-4，model_max_length=2048。

2024-07-01 19:34:55 292

原创电商图像生成大模型数据汇总

2.内部数据收集->电商图，详情图，主数据，结合ocr方法产生。

2024-07-01 16:56:31 50

原创 PaliGemma

输入图像被resize，使用bicubic resampling，采样至所需大小，最小分辨率是224x224，然后通过SigLIP图像编码器生成每个patch的1152维的image embeddings，线性投影将图像embedding投影以获取2048维的patch表示，与文本标记获取的表示相同，最终image embedding与text embedding合并，用于自回归模型的最终输入。与PaLI-3相似，PaliGemma模型在图像-文本数据上进行预训练后，可针对下游任务进行微调。

2024-07-01 14:12:04 74

原创 Bunny的PT+SFT训练

包括两个部分：1.预训练阶段，冻结预训练视觉编码器和语言模型，只训练连接器；2.视觉指令微调阶段，遵循多模态指令，其中连接器和llm更新。训练得到了连接器的权重，和llava一致。

2024-07-01 13:57:55 438

原创 Hunyuan-DiT: A powerful multi-resolution diffusion transformer with fine-grained chinese understand

X∈cxhxw，将x分块成h/pxw/p，p=2，线性投影层之后，得到hw/4个token供后续transformer使用，Hunyuan-DiT包含两种类型的transformer，都包含三个模块，自注意力，交差注意力和FFN，文本信息在交叉注意力模块中融合，解码器中还包含了一个跳跃模块，在解码阶段把编码器的信息添加进来，跳跃模块类似于Unet中的长跳跃连接，DiT中没有上采样或下采样模块，最后，token恢复二维结构，在训练中，使用v-prediction能获得更好的性能。支持多分辨率训练和推理。

2024-06-28 14:07:31 83

原创 AIGC-＞基于扩散模型的图像生成算法 (课程大纲)

课程特色是围绕着工作中AIGC文生图的具体用途来对文生图领域进行一个高屋建瓴式的分析，结合具体的应用，尤其是产业界的具体实用场景，中文化的场景来教学，该课程希望对入门AIGC尤其是文生图领域的学生，算法工程师，产品经理有很强的指导意义。Stable diffusion/comfyui/fooocus基本都是k-diffusion。Lora-scripts、sd-scripts和diffusers之间的关系。stable-diffusion-webui中的sd核心代码解析。介绍一下中文化的一些模型和应用。

2024-06-25 10:20:44 297

原创 Minillama3-＞dpo训练

GitHub - leeguandong/MiniLLaMA3: llama3的迷你版本，包括了数据，tokenizer，pt的全流程。"rejected": "\"让你的水瓶成为你的生活伴侣，使用可重复使用的水瓶，让你的水瓶成为你的伙伴\"""prompt": "为给定的产品创建一个创意标语。，输入：可重复使用的水瓶。"chosen": "\"保护地球，从拥有可重复使用的水瓶开始！就注意一点，group_by_length=False，否则会报错。2.训练，详细代码直接看github项目。

2024-06-22 10:21:46 153

原创 stable diffusion webui电商基础模型

从我们公司产品提供的基础电商模型来看，主要就是 chilloutmix，dreamshaper，majicMIx，reVAnimated，realisticVision这几种。原创AI模型分享社区，这里有最新、最热门的模型素材，10万+模型免费下载。欢迎每一位创作者加入，分享你的作品。原创AI模型分享社区，这里有最新、最热门的模型素材，10万+模型免费下载。原创AI模型分享社区，这里有最新、最热门的模型素材，10万+模型免费下载。原创AI模型分享社区，这里有最新、最热门的模型素材，10万+模型免费下载。

2024-06-21 16:40:26 93

imagemagick.zip

图像篡改检测.zip

空空如也