自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

liguandong

github:https://github.com/leeguandong

  • 博客(792)
  • 资源 (2)
  • 收藏
  • 关注

原创 创意项目开源,文生图、排序/优选等...,持续开源更新!!

learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。,中文文生图算法集合。

2023-12-03 15:08:05 263

原创 sd_webui的实用插件,prompt/lama/human matting/...,持续开源更新!!

3.sd_webui_sghm 人像抠图,在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。

2023-12-02 12:17:55 1361

原创 多模态中的高分辨率如何处理?

大多数现有的LMM使用静态分辨率对图像切片进行编码,只有几个固定形状切片可用,静态切片分辨率必然导致填充或形状扭曲的缩放。llava1.5架构,CLIP-VIT-L/14,默认分辨率336x336,Vicuna13B,共享视觉重采样器作为投影层,其中可学习query数量为64,对子切片为64x(N+1),N最大为6,支持最大分辨率为672x1008,两阶段训练,第一阶段,仅调整感知器重采样器,使用CC-5095K数据训练1epoch,AdamW,1e-3,余弦学习率,bs=256,8xA100 5小时。

2024-07-17 15:52:08 244

原创 MiniGemma

token num增加,效果也提升。

2024-07-15 20:22:24 33

原创 MiniCPM-V

预训练:几百million;sft:几millon。ocr合成数据很多;sft数据大头都是开源的。图像编码用的siglip。sft,难一点的几千条。

2024-07-15 20:01:54 245

原创 Flask包算法服务

有三个提供的接口,分别是数据拉去的接口,算法处理完,进行图片上传,上传之后告诉调用方,数据已处理完成。常规包算法服务,就是比较简单,直接起一个fastapi就可以了。

2024-07-15 17:44:12 360

原创 视觉/AIGC面经->大语言模型

注意力满秩,双向attention的注意力矩阵容易退化为低秩状态,而causal attention的注意力矩阵是下三角矩阵,必然是满秩的,建模能力强;encoder-only主要是mlm,不擅长做生成任务,decoder主要是next token prediction,兼顾理解和生成;11.transformer中encoder和decoder的区别?8.在softmax之前需要对attention进行scaled,为什么除以dk的平方根?10.transformer中的LayerNorm,什么位置?

2024-07-15 11:54:12 14

原创 视觉/AIGC面经->算法题

8.给定一个数组,求满足>target的最短子序列。4.判断左右括号(),等组成的字符串是否是合法的。9.一组正整数组中有多少两数和为K的组合。5.tree1是否是tree2的子树。3.从超大文本文件中随机行采样。12.基于numpy的卷积过程。11.一张图片旋转90度。16.倒数第K大的数字。13.求连通岛屿数量。

2024-07-15 11:54:04 103

原创 视觉/AIGC面经->多模态

和和

2024-07-15 11:53:58 619

原创 视觉/AIGC面经->扩散生成

新的生成过程不再依赖显式的classifier,训练时,classifier-free guidance需要训练两个模型,一个是无条件生成模型(DDPM),一个是条件生成模型,这两个模型可以用一个模型表示,训练时只需要在无条件生成时将条件向量置为零即可。lora 本身假设模型是过参数化的,有更小的一个内在维度,模型在训练过程中的改变是低秩的,lora就是去学习这个改变量,lora的生成和泛化能力依然来源于原始的模型。DDIM非马尔科夫变体,去噪的步骤可以更少,有一个噪声表,通过更少的步骤获得更好的效果。

2024-07-15 11:53:45 114

原创 视觉/AIGC面经->传统CV

4.OCR方案,一般是先出检测框,再出文本,不规则文本,如何解决?8.transformer相比cnn的优势?3.假新闻,图是真的,caption场景?收集一些面经上的东西,供自己学习和进步。11.SAM的prompt有哪些?检测:dbnet,识别:crnn。9.介绍detr中的query?10.SAM效果好的原因?2.自驾,感知端到决策端。5.OCR数据如何生成?

2024-07-15 11:53:33 74

原创 视觉,多模态,AIGC面试题

7. SAM的prompt有哪些,可以怎么运用 8. recall和precision的区别(强调不要背公式,讲自己的理解) 9. 代码环节:手搓multi-head attn 10. 聊了一个项目的详细情况 百度: 1.围绕项目涉及到的技术进行提问 1. SD的结构(VAE,DDPM,U-Net,Text Encoder几个模块) 2. DDPM和DDIM有什么区别 3. 为什么DDIM解决了DDPM的不足,他两谁是子集谁是母集 4. L1和L2有什么区别,各自的优缺点?腾讯算法岗面试,问的贼细!

2024-07-15 11:53:08 968

原创 [Hello-algo] 数组、链表、栈、队列、哈希、树

3.1 数据结构分类 - Hello 算法。动画图解、一键运行的数据结构与算法教程。

2024-07-14 14:59:21 122

原创 [Hello-algo] 复杂度分析

2.3 时间复杂度 - Hello 算法。动画图解、一键运行的数据结构与算法教程。时间复杂度由T(n)中最高阶的项决定。

2024-07-14 14:32:20 153

原创 大模型时代的目标检测

也是开放集任务,相比于 open set,需要知道不在训练集类别中的新预测物体类别。这类模型通常都需要接入文本作为一个模态输入,因为开放词汇目标检测的定义就是给定任意词汇都可以检测出来。这个任务是指在实际应用上可以检测任何前景物体,但是有些不需要预测类别,只要检测出框就行。在很多场合也有应用场景,有点像类无关的增量训练。训练时候通常是要确保训练集和测试集的类别不能重复,否则就是信息泄露了,但是训练和测试集图片是否重复其实也没有强制限制。

2024-07-12 11:37:47 484

原创 VALSE2024 多模态大模型

【VALSE2024】0507《Workshop :多模态大模型》_哔哩哔哩_bilibili。

2024-07-11 15:23:06 47

原创 text prompt如何超过77个词

sd中,token最多75(77个,包括起始和结束符),将其扩展到225,clip接受的最大长度是75个token,因此在225的情况下,需要将其分成三段,调用clip,然后连接结果。clip将文本转换为特征,sd中使用clip最后一层输出,但可以更改为使用倒数第二层的输出,NovelAI称这将更准确的反应提示,在sd2.0中,默认使用倒数第二层,不要指定clip_skip。【深度学习】sdwebui的token_counter,update_token_counter,如何超出77个token的限制?

2024-07-11 10:13:21 612

原创 lora训练调参

Stable Diffusion 文字生成图片的教程已经很多了。这篇文章是讲解如何用 Kohya Trainer 在 Google Colab 上训练一个 LyCORIS 模型。在读之前希望你已经至少玩过 Stable Diffusion。Stable Diffusion 训练指南 (LyCORIS) | Coding Husky。面试中遇到的问题,把lora训练中的几个重点参数记录一下。

2024-07-10 11:24:07 122

原创 控ID生成->facechain

首先,为了更针对性提取人脸的ID信息并保持部分关键人脸细节,并且更好适应Stable Diffusion的结构,FaceChain FACT采用在大量人脸数据上预训练的基于Transformer架构的人脸特征提取器,抽取其倒数第二层的全部token,后续连接简单的注意力查询模型进行特征投影,从而使得提取的ID特征兼顾上述三点要求。”,对应的训练数据为多张该人物ID的形象图片。该模式的效果与训练数据的规模成正相关,因此往往需要庞大的形象数据支撑以及一定的训练时间,这也增加了用户的使用成本。

2024-07-10 10:11:21 496

原创 lora/lycoris

根据之前的一些工作,发现大模型其实是过参数化的, 有更小的一个内在维度,于是文章做了一个假设,模型在任务适配过程中,参数的改变量是低秩的,在训练过程中,lora单独去学习这个改变量,而不是去学习模型的参数,通过把最终训练得到的参数分解为原参数W0和该变量deltaW进行相加,论文假设deltaW是低秩的,把deltaW进一步拆分为低秩矩阵A和低秩矩阵B,如图1所示,而在推理的过程中,由于模型参数已经固定不再变动,这时候把模型的改变量直接放到模型里,这样在推理的计算过程中,就避免了一次额外的矩阵乘法开销。

2024-07-08 11:18:53 38

原创 大语言模型推理参数

T越大越发散,T越小,越稳定,温度嘛,其实就是在softmax中增加了一个T,常见做法。true,模型在生成文本时使用采样方法,而不是直接选择概率最高的下一个token。从概率最高的token开始累计,直到累计的概率超过了top p。只考虑概率最大的topk个token。

2024-07-05 17:04:47 145

原创 HunyuanDiT训练

V100上不支持flash attention,但是可以在入参中取消use_flash_attn。

2024-07-03 09:35:52 42

原创 LLaVA1.5训练数据和时间分析

全量微调,非lora跑不起来啊,以前一直用swift,llama-factory这种框架式的代码库,但用原作者开源的代码也是有很多好处的。_llava sft。lora,全量微调不用zeros3_offload.json跑不起来,2张A800,训了1个epoch,per_device_train_batch_size=16,gradient_accumulation_steps=1,cosine,lr=2e-4,model_max_length=2048。

2024-07-01 19:34:55 111

原创 电商图像生成大模型数据汇总

2.内部数据收集->电商图,详情图,主数据,结合ocr方法产生。

2024-07-01 16:56:31 29

原创 PaliGemma

输入图像被resize,使用bicubic resampling,采样至所需大小,最小分辨率是224x224,然后通过SigLIP图像编码器生成每个patch的1152维的image embeddings,线性投影将图像embedding投影以获取2048维的patch表示,与文本标记获取的表示相同,最终image embedding与text embedding合并,用于自回归模型的最终输入。与PaLI-3相似,PaliGemma模型在图像-文本数据上进行预训练后,可针对下游任务进行微调。

2024-07-01 14:12:04 41

原创 Bunny的PT+SFT训练

包括两个部分:1.预训练阶段,冻结预训练视觉编码器和语言模型,只训练连接器;2.视觉指令微调阶段,遵循多模态指令,其中连接器和llm更新。训练得到了连接器的权重,和llava一致。

2024-07-01 13:57:55 388

原创 Hunyuan-DiT: A powerful multi-resolution diffusion transformer with fine-grained chinese understand

X∈cxhxw,将x分块成h/pxw/p,p=2,线性投影层之后,得到hw/4个token供后续transformer使用,Hunyuan-DiT包含两种类型的transformer,都包含三个模块,自注意力,交差注意力和FFN,文本信息在交叉注意力模块中融合,解码器中还包含了一个跳跃模块,在解码阶段把编码器的信息添加进来,跳跃模块类似于Unet中的长跳跃连接,DiT中没有上采样或下采样模块,最后,token恢复二维结构,在训练中,使用v-prediction能获得更好的性能。支持多分辨率训练和推理。

2024-06-28 14:07:31 39

原创 AIGC->基于扩散模型的图像生成算法 (课程大纲)

课程特色是围绕着工作中AIGC文生图的具体用途来对文生图领域进行一个高屋建瓴式的分析,结合具体的应用,尤其是产业界的具体实用场景,中文化的场景来教学,该课程希望对入门AIGC尤其是文生图领域的学生,算法工程师,产品经理有很强的指导意义。Stable diffusion/comfyui/fooocus基本都是k-diffusion。Lora-scripts、sd-scripts和diffusers之间的关系。stable-diffusion-webui中的sd核心代码解析。介绍一下中文化的一些模型和应用。

2024-06-25 10:20:44 258

原创 Minillama3->dpo训练

GitHub - leeguandong/MiniLLaMA3: llama3的迷你版本,包括了数据,tokenizer,pt的全流程。"rejected": "\"让你的水瓶成为你的生活伴侣,使用可重复使用的水瓶,让你的水瓶成为你的伙伴\"""prompt": "为给定的产品创建一个创意标语。,输入:可重复使用的水瓶。"chosen": "\"保护地球,从拥有可重复使用的水瓶开始!就注意一点,group_by_length=False,否则会报错。2.训练,详细代码直接看github项目。

2024-06-22 10:21:46 91

原创 stable diffusion webui电商基础模型

从我们公司产品提供的基础电商模型来看,主要就是 chilloutmix,dreamshaper,majicMIx,reVAnimated,realisticVision这几种。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。欢迎每一位创作者加入,分享你的作品。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。

2024-06-21 16:40:26 55

原创 stable diffusion 模型和lora融合

接下来学习的插件名字叫做 SuperMerger,它的作用正如其名,可以融合大模型或者 LoRA,一般来说会结合之前的插件 LoRA Block Weight 使用,在调整完成 LoRA 模型的权重后使用改插件进行重新打包。实际上,目前市面上存在大量的 Checkpoint 模型都是经由合并这种方式得来,这类模型一般名字中都带有 Mix,如国内比较知名的作者GhostInShell: https://www.zhihu.com/peo。NONE是指原图,ALL是指LORA全开权重为1的图。

2024-06-21 16:29:56 624 2

原创 stable diffusion 模型融合

use MBW:分层对模型融合,Merge Block Weighted,已经集成在superMerger中了,注意alpha和beta是两个模型加权的两个参数,Weights Setting和Weights Presets,后者里面有详细的参数,可以修改,Weights Setting->Werights for alpha->Preset中有很多模式,这些模式都是可选的。下面是官方的融合预设。模型合并:对多个模型进行加权混合,从而得到一个合并后的模型,简单的说,就是每个模型乘一个系数,然后混合在一起。

2024-06-21 15:47:12 291

原创 Minillama3->sft训练

SFT数据集分别为:[generated_chat_0.4M](https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M)、[train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN)和[train_2M_CN](https://huggingface.co/datasets/BelleGroup/train_2M_CN),清洗后剩余约137万行。

2024-06-21 11:11:44 76

原创 Minillama3->pt训练

llama3的迷你版本,包括了数据,tokenizer,pt的全流程. Contribute to leeguandong/MiniLLaMA3 development by creating an account on GitHub.GitHub - leeguandong/MiniLLaMA3: llama3的迷你版本,包括了数据,tokenizer,pt的全流程。1.数据预处理,包括去重,shuffle,划分数据集。具体代码都在git上,我这里只做一个主函数简单的演示。

2024-06-19 18:08:25 73

原创 How abilities in large lanuage models are affected by supervised fine-tuning data composition

在第二阶段,使用混合数据源执行SFT,该数据源由普通数据以及不同比例的代码和数学数据k(1,1/2,1/4,1/8,1/16,1/32)组合而成。然而,值得注意的是,一般对齐能力仅在1k左右的数据样本(从1/256到1/64)中出现,达到一定阈值(1/64)后,其性能会缓慢提高,表明少量高质量的SFT数据就有可能在LLM中出现一般的人类对齐能力。在第二阶段,该工作使用混合数据源执行SFT,该数据源由普通数据以及不同比例的代码和数学数据k(1,1/2,1/4,1/8,1/16,1/32)组合而成。

2024-06-17 19:46:38 154

原创 Minillama3->训练tokenizer

GitHub - charent/ChatLM-mini-Chinese: 中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。2.预处理成wiki.txt。1.wiki数据下载。

2024-06-17 19:35:54 66

原创 LLaVA的PT+SFT训练

这个阶段,使用8个A100(80G)训练LLaVA-v1.5-13B大约需要20h。全量微调,非lora跑不起来啊,以前一直用swift,llama-factory这种框架式的代码库,但用原作者开源的代码也是有很多好处的。在这个阶段,使用 8 个 A100(80G)训练 LLaVA-v1.5-13B 大约需要 5.5 小时。检测目录代码:missing_cnt为0,说明目录没问题。

2024-06-12 19:14:50 425

原创 Minillama3

既然是预训练,那么就是让模型在语料上做无监督学习,也就是我们熟知的 next token prediction,即根据前面的所有输入来预测下一个 token,然后把新的 token 拼接在已有输入上作为下一输入,如此往复,直到触发停止设定(例如触发。选用 LLaMA 2 的分词器,因为二代的词表比较小(32k),LLaMA 3 的词表太大了(128k),在 SLM 中会占用太多的参数比重,并且这只是个专有任务数据训练,没必要用太大的词表。在这里,我采用直接截断的方式,最大截取当前输入序列的后。

2024-06-12 15:32:47 158

原创 stable diffusion中的negative prompt是如何工作的

在sd中的一个采样步骤中,首先通过文本prompt进行有条件采样,对图像进行轻微去噪,然后,采样器通过无条件采样对同一图像进行轻微去噪(无条件图像生成),是无引导的,就像不使用文本prompt一样,注意,它仍然会扩散成一个不错的图像,像下面的篮球或酒杯,可以是任何东西,实际完成的扩散步骤是有条件采样和无条件采样之间的差异。当我们使用“带胡子男人的肖像照”这个提示时,Stable Diffusion会从所有带胡子和不带胡子男人的整个潜在空间中进行采样。有效地,我们实际上是在不带胡子男人的空间中进行采样。

2024-06-12 15:08:29 350

原创 大语言模型QA

除了发现yi-6B/34B 随着训练 tokens 的增加不同的 cosine 下降趋势外,我们也比较了32 层 layer的 7B open source models 的 cosine 排序,发现大体与模型对应的英文能力对应,我们认为 model cosine 在相同模型结构下,反映着对于 token embedding 的特征提取能力。这个上,有写论文的结论是:通用模型肯定多样性越多越好,典型的是LIMA, 但是有些论文结论是,垂直领域模型,其他领域的大量数据对本领域未必有很好的提升。

2024-06-11 17:42:18 248

imagemagick.zip

imagemagick的pdf教程以及中文翻译版本

2022-01-18

图像篡改检测.zip

图像篡改ppt。

2019-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除