自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

liguandong

github:https://github.com/leeguandong

  • 博客(797)
  • 资源 (2)
  • 收藏
  • 关注

原创 创意项目开源,文生图、排序/优选等...,持续开源更新!!

learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。,中文文生图算法集合。

2023-12-03 15:08:05 266

原创 sd_webui的实用插件,prompt/lama/human matting/...,持续开源更新!!

3.sd_webui_sghm 人像抠图,在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。

2023-12-02 12:17:55 1362

原创 PaliGemma:A versatile 3B VLM for transfer

保持图像编码器不变是常见的做法,图像注释和其他更难学习的任务能够为图像编码器提供有价值的信号,使其学会空间和关系理解能力,这通常是clip或者siglip缺乏的,不再冻结图像编码器,为避免来自最初未对齐语言模型的破坏性监督信号,我们对图像编码器使用缓慢的线性升温,确保图像编码器的质量不因lmm传递归来的初始错误对齐的梯度而降低。图像分辨率为固定的正方形,224,448,896,这导致每种模型都有固定数量的图像token,256,1024,4096。对于448,训练了50M个示例,对于896,再添加10M。

2024-07-26 19:04:46 18

原创 Florence2:Advancing a unified representation for a variety of vision tasks

quad box表示:(x0,y0,...,x3,y3),对于文本检测和识别任务,包含文本的四边形的坐标的位置信息token,多边形表示:(x0,y0,...,xn,yn)分割任务。视觉物体区域的文本注释通过从图像到文本模型生成的裁剪图像区域的简要文本做进一步丰富,每个区域随后接受三种文本注释,来自物体类型的短语,简要文本和来自简要文本的名词短语块,florence1确定每个图像区域最相似的文本注释。三个关键任务,图像语料库的主要来源,图像分类,目标检测,图像描述。我们的主要目标是生成全面的注释。

2024-07-26 17:45:02 106

原创 how far are we to gpt4v: closing the gap to commercial multimodel models with open source suites

在训练过程中,实施了一种动态分辨率策略,根据输入图像的长宽比和分辨率,将图像分为448x448,块的范围1-12,在测试中,可以进行zero-shot扩展到40个block,即4K,为了增强高分辨率的可扩展性,采用了像素重排pixel shuffle,将视觉token的数量减少为原来的四分之一,与nn.pixelshuffle相反,nn.pixelshuffle是把图像变大,通道变小,此处的pixelshuffle是把通道变多,图像变少了,16x16=256个。

2024-07-25 11:22:34 195

原创 Efficient multimodel learning from data-centric perspective

1.通过k均值聚类所有的2B图像embedding,然后在每个culster中构建了一个无向图,只要其余弦相似度超过了预定阈值,任何两个嵌入就相互连接,在每个连接子图中,仅保留到cluster中心的欧几里得距离排中位数的一个样本,通过将阈值设置为0.86,获得了一个子集952M,微调:利用SVIT-mix-665K,并用WizardLM-evol-instruct-70K替换了SHareGPT-40K,得到了Bunny-695K。预训练:Bunny-pretrain-LAION-2B;

2024-07-24 13:58:35 24

原创 ocrbench:on the hidden mystery of ocr in large multimodel models

文本识别,场景文本中心的视觉问答Scene Text-Centric VQA,文档导向的视觉问答 Document-Oriented VQA,关键信息提取 Key Information Extraction,手写数学公式识别。包括文本识别、场景文本中心的VQA、文档导向的VQA、KIE和手写文本识别,包括1000个问答对,KIE,prompt:直接使用图像中的文本回答这个问题。ChartQA:共9608个人工编写的问题包括了4808个图标,以及17141个图标的人工编写的总结中生成的23111个问题。

2024-07-23 15:06:49 45

原创 多模态中的高分辨率如何处理?

大多数现有的LMM使用静态分辨率对图像切片进行编码,只有几个固定形状切片可用,静态切片分辨率必然导致填充或形状扭曲的缩放。llava1.5架构,CLIP-VIT-L/14,默认分辨率336x336,Vicuna13B,共享视觉重采样器作为投影层,其中可学习query数量为64,对子切片为64x(N+1),N最大为6,支持最大分辨率为672x1008,两阶段训练,第一阶段,仅调整感知器重采样器,使用CC-5095K数据训练1epoch,AdamW,1e-3,余弦学习率,bs=256,8xA100 5小时。

2024-07-17 15:52:08 288

原创 MiniGemma

token num增加,效果也提升。

2024-07-15 20:22:24 36

原创 MiniCPM-V

预训练:几百million;sft:几millon。ocr合成数据很多;sft数据大头都是开源的。图像编码用的siglip。sft,难一点的几千条。

2024-07-15 20:01:54 286

原创 Flask包算法服务

有三个提供的接口,分别是数据拉去的接口,算法处理完,进行图片上传,上传之后告诉调用方,数据已处理完成。常规包算法服务,就是比较简单,直接起一个fastapi就可以了。

2024-07-15 17:44:12 367

原创 视觉/AIGC面经->大语言模型

注意力满秩,双向attention的注意力矩阵容易退化为低秩状态,而causal attention的注意力矩阵是下三角矩阵,必然是满秩的,建模能力强;encoder-only主要是mlm,不擅长做生成任务,decoder主要是next token prediction,兼顾理解和生成;11.transformer中encoder和decoder的区别?8.在softmax之前需要对attention进行scaled,为什么除以dk的平方根?10.transformer中的LayerNorm,什么位置?

2024-07-15 11:54:12 19

原创 视觉/AIGC面经->算法题

8.给定一个数组,求满足>target的最短子序列。4.判断左右括号(),等组成的字符串是否是合法的。9.一组正整数组中有多少两数和为K的组合。5.tree1是否是tree2的子树。3.从超大文本文件中随机行采样。12.基于numpy的卷积过程。11.一张图片旋转90度。16.倒数第K大的数字。13.求连通岛屿数量。

2024-07-15 11:54:04 109

原创 视觉/AIGC面经->多模态

和和

2024-07-15 11:53:58 624

原创 视觉/AIGC面经->扩散生成

新的生成过程不再依赖显式的classifier,训练时,classifier-free guidance需要训练两个模型,一个是无条件生成模型(DDPM),一个是条件生成模型,这两个模型可以用一个模型表示,训练时只需要在无条件生成时将条件向量置为零即可。lora 本身假设模型是过参数化的,有更小的一个内在维度,模型在训练过程中的改变是低秩的,lora就是去学习这个改变量,lora的生成和泛化能力依然来源于原始的模型。DDIM非马尔科夫变体,去噪的步骤可以更少,有一个噪声表,通过更少的步骤获得更好的效果。

2024-07-15 11:53:45 123

原创 视觉/AIGC面经->传统CV

4.OCR方案,一般是先出检测框,再出文本,不规则文本,如何解决?8.transformer相比cnn的优势?3.假新闻,图是真的,caption场景?收集一些面经上的东西,供自己学习和进步。11.SAM的prompt有哪些?检测:dbnet,识别:crnn。9.介绍detr中的query?10.SAM效果好的原因?2.自驾,感知端到决策端。5.OCR数据如何生成?

2024-07-15 11:53:33 77

原创 视觉,多模态,AIGC面试题

7. SAM的prompt有哪些,可以怎么运用 8. recall和precision的区别(强调不要背公式,讲自己的理解) 9. 代码环节:手搓multi-head attn 10. 聊了一个项目的详细情况 百度: 1.围绕项目涉及到的技术进行提问 1. SD的结构(VAE,DDPM,U-Net,Text Encoder几个模块) 2. DDPM和DDIM有什么区别 3. 为什么DDIM解决了DDPM的不足,他两谁是子集谁是母集 4. L1和L2有什么区别,各自的优缺点?腾讯算法岗面试,问的贼细!

2024-07-15 11:53:08 991

原创 [Hello-algo] 数组、链表、栈、队列、哈希、树

3.1 数据结构分类 - Hello 算法。动画图解、一键运行的数据结构与算法教程。

2024-07-14 14:59:21 129

原创 [Hello-algo] 复杂度分析

2.3 时间复杂度 - Hello 算法。动画图解、一键运行的数据结构与算法教程。时间复杂度由T(n)中最高阶的项决定。

2024-07-14 14:32:20 157

原创 大模型时代的目标检测

也是开放集任务,相比于 open set,需要知道不在训练集类别中的新预测物体类别。这类模型通常都需要接入文本作为一个模态输入,因为开放词汇目标检测的定义就是给定任意词汇都可以检测出来。这个任务是指在实际应用上可以检测任何前景物体,但是有些不需要预测类别,只要检测出框就行。在很多场合也有应用场景,有点像类无关的增量训练。训练时候通常是要确保训练集和测试集的类别不能重复,否则就是信息泄露了,但是训练和测试集图片是否重复其实也没有强制限制。

2024-07-12 11:37:47 492

原创 VALSE2024 多模态大模型

【VALSE2024】0507《Workshop :多模态大模型》_哔哩哔哩_bilibili。

2024-07-11 15:23:06 50

原创 text prompt如何超过77个词

sd中,token最多75(77个,包括起始和结束符),将其扩展到225,clip接受的最大长度是75个token,因此在225的情况下,需要将其分成三段,调用clip,然后连接结果。clip将文本转换为特征,sd中使用clip最后一层输出,但可以更改为使用倒数第二层的输出,NovelAI称这将更准确的反应提示,在sd2.0中,默认使用倒数第二层,不要指定clip_skip。【深度学习】sdwebui的token_counter,update_token_counter,如何超出77个token的限制?

2024-07-11 10:13:21 620

原创 lora训练调参

Stable Diffusion 文字生成图片的教程已经很多了。这篇文章是讲解如何用 Kohya Trainer 在 Google Colab 上训练一个 LyCORIS 模型。在读之前希望你已经至少玩过 Stable Diffusion。Stable Diffusion 训练指南 (LyCORIS) | Coding Husky。面试中遇到的问题,把lora训练中的几个重点参数记录一下。

2024-07-10 11:24:07 124

原创 控ID生成->facechain

首先,为了更针对性提取人脸的ID信息并保持部分关键人脸细节,并且更好适应Stable Diffusion的结构,FaceChain FACT采用在大量人脸数据上预训练的基于Transformer架构的人脸特征提取器,抽取其倒数第二层的全部token,后续连接简单的注意力查询模型进行特征投影,从而使得提取的ID特征兼顾上述三点要求。”,对应的训练数据为多张该人物ID的形象图片。该模式的效果与训练数据的规模成正相关,因此往往需要庞大的形象数据支撑以及一定的训练时间,这也增加了用户的使用成本。

2024-07-10 10:11:21 498

原创 lora/lycoris

根据之前的一些工作,发现大模型其实是过参数化的, 有更小的一个内在维度,于是文章做了一个假设,模型在任务适配过程中,参数的改变量是低秩的,在训练过程中,lora单独去学习这个改变量,而不是去学习模型的参数,通过把最终训练得到的参数分解为原参数W0和该变量deltaW进行相加,论文假设deltaW是低秩的,把deltaW进一步拆分为低秩矩阵A和低秩矩阵B,如图1所示,而在推理的过程中,由于模型参数已经固定不再变动,这时候把模型的改变量直接放到模型里,这样在推理的计算过程中,就避免了一次额外的矩阵乘法开销。

2024-07-08 11:18:53 41

原创 大语言模型推理参数

T越大越发散,T越小,越稳定,温度嘛,其实就是在softmax中增加了一个T,常见做法。true,模型在生成文本时使用采样方法,而不是直接选择概率最高的下一个token。从概率最高的token开始累计,直到累计的概率超过了top p。只考虑概率最大的topk个token。

2024-07-05 17:04:47 147

原创 HunyuanDiT训练

V100上不支持flash attention,但是可以在入参中取消use_flash_attn。

2024-07-03 09:35:52 48

原创 LLaVA1.5训练数据和时间分析

全量微调,非lora跑不起来啊,以前一直用swift,llama-factory这种框架式的代码库,但用原作者开源的代码也是有很多好处的。_llava sft。lora,全量微调不用zeros3_offload.json跑不起来,2张A800,训了1个epoch,per_device_train_batch_size=16,gradient_accumulation_steps=1,cosine,lr=2e-4,model_max_length=2048。

2024-07-01 19:34:55 133

原创 电商图像生成大模型数据汇总

2.内部数据收集->电商图,详情图,主数据,结合ocr方法产生。

2024-07-01 16:56:31 30

原创 PaliGemma

输入图像被resize,使用bicubic resampling,采样至所需大小,最小分辨率是224x224,然后通过SigLIP图像编码器生成每个patch的1152维的image embeddings,线性投影将图像embedding投影以获取2048维的patch表示,与文本标记获取的表示相同,最终image embedding与text embedding合并,用于自回归模型的最终输入。与PaLI-3相似,PaliGemma模型在图像-文本数据上进行预训练后,可针对下游任务进行微调。

2024-07-01 14:12:04 47

原创 Bunny的PT+SFT训练

包括两个部分:1.预训练阶段,冻结预训练视觉编码器和语言模型,只训练连接器;2.视觉指令微调阶段,遵循多模态指令,其中连接器和llm更新。训练得到了连接器的权重,和llava一致。

2024-07-01 13:57:55 391

原创 Hunyuan-DiT: A powerful multi-resolution diffusion transformer with fine-grained chinese understand

X∈cxhxw,将x分块成h/pxw/p,p=2,线性投影层之后,得到hw/4个token供后续transformer使用,Hunyuan-DiT包含两种类型的transformer,都包含三个模块,自注意力,交差注意力和FFN,文本信息在交叉注意力模块中融合,解码器中还包含了一个跳跃模块,在解码阶段把编码器的信息添加进来,跳跃模块类似于Unet中的长跳跃连接,DiT中没有上采样或下采样模块,最后,token恢复二维结构,在训练中,使用v-prediction能获得更好的性能。支持多分辨率训练和推理。

2024-06-28 14:07:31 40

原创 AIGC->基于扩散模型的图像生成算法 (课程大纲)

课程特色是围绕着工作中AIGC文生图的具体用途来对文生图领域进行一个高屋建瓴式的分析,结合具体的应用,尤其是产业界的具体实用场景,中文化的场景来教学,该课程希望对入门AIGC尤其是文生图领域的学生,算法工程师,产品经理有很强的指导意义。Stable diffusion/comfyui/fooocus基本都是k-diffusion。Lora-scripts、sd-scripts和diffusers之间的关系。stable-diffusion-webui中的sd核心代码解析。介绍一下中文化的一些模型和应用。

2024-06-25 10:20:44 262

原创 Minillama3->dpo训练

GitHub - leeguandong/MiniLLaMA3: llama3的迷你版本,包括了数据,tokenizer,pt的全流程。"rejected": "\"让你的水瓶成为你的生活伴侣,使用可重复使用的水瓶,让你的水瓶成为你的伙伴\"""prompt": "为给定的产品创建一个创意标语。,输入:可重复使用的水瓶。"chosen": "\"保护地球,从拥有可重复使用的水瓶开始!就注意一点,group_by_length=False,否则会报错。2.训练,详细代码直接看github项目。

2024-06-22 10:21:46 96

原创 stable diffusion webui电商基础模型

从我们公司产品提供的基础电商模型来看,主要就是 chilloutmix,dreamshaper,majicMIx,reVAnimated,realisticVision这几种。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。欢迎每一位创作者加入,分享你的作品。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。

2024-06-21 16:40:26 58

原创 stable diffusion 模型和lora融合

接下来学习的插件名字叫做 SuperMerger,它的作用正如其名,可以融合大模型或者 LoRA,一般来说会结合之前的插件 LoRA Block Weight 使用,在调整完成 LoRA 模型的权重后使用改插件进行重新打包。实际上,目前市面上存在大量的 Checkpoint 模型都是经由合并这种方式得来,这类模型一般名字中都带有 Mix,如国内比较知名的作者GhostInShell: https://www.zhihu.com/peo。NONE是指原图,ALL是指LORA全开权重为1的图。

2024-06-21 16:29:56 686 2

原创 stable diffusion 模型融合

use MBW:分层对模型融合,Merge Block Weighted,已经集成在superMerger中了,注意alpha和beta是两个模型加权的两个参数,Weights Setting和Weights Presets,后者里面有详细的参数,可以修改,Weights Setting->Werights for alpha->Preset中有很多模式,这些模式都是可选的。下面是官方的融合预设。模型合并:对多个模型进行加权混合,从而得到一个合并后的模型,简单的说,就是每个模型乘一个系数,然后混合在一起。

2024-06-21 15:47:12 293

原创 Minillama3->sft训练

SFT数据集分别为:[generated_chat_0.4M](https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M)、[train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN)和[train_2M_CN](https://huggingface.co/datasets/BelleGroup/train_2M_CN),清洗后剩余约137万行。

2024-06-21 11:11:44 76

原创 Minillama3->pt训练

llama3的迷你版本,包括了数据,tokenizer,pt的全流程. Contribute to leeguandong/MiniLLaMA3 development by creating an account on GitHub.GitHub - leeguandong/MiniLLaMA3: llama3的迷你版本,包括了数据,tokenizer,pt的全流程。1.数据预处理,包括去重,shuffle,划分数据集。具体代码都在git上,我这里只做一个主函数简单的演示。

2024-06-19 18:08:25 75

原创 How abilities in large lanuage models are affected by supervised fine-tuning data composition

在第二阶段,使用混合数据源执行SFT,该数据源由普通数据以及不同比例的代码和数学数据k(1,1/2,1/4,1/8,1/16,1/32)组合而成。然而,值得注意的是,一般对齐能力仅在1k左右的数据样本(从1/256到1/64)中出现,达到一定阈值(1/64)后,其性能会缓慢提高,表明少量高质量的SFT数据就有可能在LLM中出现一般的人类对齐能力。在第二阶段,该工作使用混合数据源执行SFT,该数据源由普通数据以及不同比例的代码和数学数据k(1,1/2,1/4,1/8,1/16,1/32)组合而成。

2024-06-17 19:46:38 160

imagemagick.zip

imagemagick的pdf教程以及中文翻译版本

2022-01-18

图像篡改检测.zip

图像篡改ppt。

2019-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除