Kun Li
自古山高水远路,无一不为风尘苦。
展开
-
多模态中的高分辨率如何处理?
大多数现有的LMM使用静态分辨率对图像切片进行编码,只有几个固定形状切片可用,静态切片分辨率必然导致填充或形状扭曲的缩放。llava1.5架构,CLIP-VIT-L/14,默认分辨率336x336,Vicuna13B,共享视觉重采样器作为投影层,其中可学习query数量为64,对子切片为64x(N+1),N最大为6,支持最大分辨率为672x1008,两阶段训练,第一阶段,仅调整感知器重采样器,使用CC-5095K数据训练1epoch,AdamW,1e-3,余弦学习率,bs=256,8xA100 5小时。原创 2024-07-17 15:52:08 · 317 阅读 · 0 评论 -
视觉/AIGC->多模态
面经原创 2024-07-15 11:53:58 · 648 阅读 · 0 评论 -
VALSE2024 多模态大模型
【VALSE2024】0507《Workshop :多模态大模型》_哔哩哔哩_bilibili。原创 2024-07-11 15:23:06 · 71 阅读 · 0 评论 -
LLaVA1.5训练数据和时间分析
全量微调,非lora跑不起来啊,以前一直用swift,llama-factory这种框架式的代码库,但用原作者开源的代码也是有很多好处的。_llava sft。lora,全量微调不用zeros3_offload.json跑不起来,2张A800,训了1个epoch,per_device_train_batch_size=16,gradient_accumulation_steps=1,cosine,lr=2e-4,model_max_length=2048。原创 2024-07-01 19:34:55 · 229 阅读 · 0 评论 -
Bunny的PT+SFT训练
包括两个部分:1.预训练阶段,冻结预训练视觉编码器和语言模型,只训练连接器;2.视觉指令微调阶段,遵循多模态指令,其中连接器和llm更新。训练得到了连接器的权重,和llava一致。原创 2024-07-01 13:57:55 · 419 阅读 · 0 评论 -
LLaVA的PT+SFT训练
这个阶段,使用8个A100(80G)训练LLaVA-v1.5-13B大约需要20h。全量微调,非lora跑不起来啊,以前一直用swift,llama-factory这种框架式的代码库,但用原作者开源的代码也是有很多好处的。在这个阶段,使用 8 个 A100(80G)训练 LLaVA-v1.5-13B 大约需要 5.5 小时。检测目录代码:missing_cnt为0,说明目录没问题。原创 2024-06-12 19:14:50 · 490 阅读 · 0 评论 -
swift微调牧歌数据电商多模态大语言模型
大规模中文多模态评测基准MUGE_数据集-阿里云天池多模态理解和生成评估挑战榜(MUGE)是由阿里巴巴达摩院智能计算实验室发起,由阿里云天池平台承办,并由浙江大学、清华大学等单位共同协办。 Mhttps://tianchi.aliyun.com/dataset/107332微调的是牧歌数据集,结果都不好,记录一下。微调了qwenvl和llava,都是一样的类似结果,需要对数据做进一步的分析。1.数据用的是牧歌ECommerce-IC数据,本项任务涵盖了服装、饰品、化妆品内的多个商品类目,对于一件商品原创 2024-06-11 15:48:14 · 925 阅读 · 0 评论 -
Rethinking overlooked aspects in vision-language models
多模态模型架构上的变化不大,数据的差距比较大,输入分辨率和输入llm的视觉token大小是比较关键的,适配器,VIT和语言模型则不是那么关键。基于LLaVA-1.5设计了一系列的实验,对于预训练数据集,从LAION-5B-en中提取了7组数据,规模从1M到100M,用这些数据训练相同的模型,同时,为了观察模型性能是否随着模型大小和数据量的增加而稳定提升,选择了Vicuna-7/13B,Qwen1.5-Chat-7B/14B,Yi-Chat-6B/34B.欢迎关注 CVHub!原创 2024-06-05 21:33:59 · 423 阅读 · 0 评论 -
InternLM-XComposer2:Mastering free-form text-image composition and comprehension in vision-llm
预训练阶段使视觉特征与语言对齐,使得llm能够理解图像内容,然而,仍然缺乏有效利用图像信息的能力,在后续的监督微调阶段引入了一系列视觉语言任务,这个阶段包括两个任务,1.Multi-task training,2.Free-form Text-Image Composition,在这个阶段,我们联合微调视觉编码器,llm和Partial lora。自由形式的文本图像组合指的是灵活且无限制的结合文本内容和视觉元素,模型生成交错的文本和图像,收集了大量的数据,1.多样的写作风格,学术论文,社交媒体和诗歌;原创 2024-05-28 14:34:44 · 68 阅读 · 0 评论 -
swift微调多模态大语言模型
Qwen1.5微调训练脚本中,我用到了--dataset new_data.jsonl 这个选项, 可以训练成功,但我看文档有提到--custom_train_dataset_path这个选项,这两个有什么区别呢,是不是对自己生成的数据集用--dataset new_data.jsonl 这种方式是不对的,但是为什么又确实训练成功了呢(至少模型确实学习到了训练资料中的知识) # Experimental environment: A100 # 2*40GB GPU me...原创 2024-05-05 15:50:38 · 1190 阅读 · 0 评论 -
qwen-vl微调
lora在V100上显存不够,微调不起来,在a800上可以。用swift库可以在V100上微调Qwen-vl。直接pip install -r requirments.txt。注意gcc要升级到9.3。原创 2024-05-05 15:48:36 · 561 阅读 · 1 评论 -
电商中文场景多模态测试prompt
最近测了一下零一万物的多模态大模型Yi-VL-plus的效果,发现多模态理解能力非常棒 ,尤其是细粒度识别方面,相比去年业界的模型有了非常大的提升。原创 2024-05-05 14:49:02 · 600 阅读 · 0 评论 -
VisualGLM-6B微调(V100)
CentOS 7虽然已经出了很多年了,但依然会有很多人选择安装CentOS 6,CentOS 6有些依赖包和软件都比较老旧,如今天的主角gcc编译器,CentOS 6的gcc版本为4.4,CentOS 7为4.8。gcc 4.8最主要的一个特性就是全面支持C++11,如果不清楚什么用的也没关系,简单说一些C++11标准的程序都需要gcc 4.8以上版本的gcc编译器编译,如MySQL 8.0版本(8.0.16以上版本是C++14标准,需gcc 5.3以上版本)。Visualglm-6b-CSDN博客。原创 2024-05-04 17:33:41 · 975 阅读 · 1 评论 -
多模态模型训练QA
Q:用 Q-Former 的方式训练 VL Connecter 会不会在流程增加了复杂度,如果是参数量的问题,直接把 llava 系列模型中的 MLP VL Connector 换为 6B level 的 transofrmer 是不是就行了,这边有实验这种方法是不是 work 吗?T1:TextMonkey论文也是发现提高分辨率后会有很多冗余的tonen,然后它也是通过token间相似度来过滤出前50%重要的token,然后通过token resampler聚合,消融实验也比较了直接丢掉的效果。原创 2024-04-23 11:47:45 · 508 阅读 · 0 评论 -
多模态中的视觉编码器clip以及输入分辨率
在多模态的视觉编码主干中,若采用分类的backbone效果很差,经过语义对齐的backbone,比如clip的vit,效果则好很多。1.Cogvlm中的EVA2-CLIP-E,VIT中最后一层被移除,4.4B,支持分辨率为334/490.2.QWEN-VL中openclip的ViT-bigG,1.9B,支持分辨率448x448。7.monkey中Vit-BigHuge,编码器1.9B,支持分辨率是896.3.llava中CLIP-VIT-L-336px, 支持分辨率336。原创 2024-04-19 11:27:11 · 574 阅读 · 0 评论 -
多模态大模型训练数据量以及训练方式
在这个阶段,冻结了大语言模型,只优化视觉编码器和VL adapter,输入图像被调整为224x224,训练目标是最小化文本token的交叉熵,adamw,余弦学习率,最大lr=2e-4,最小lr=1e-6,训练过程中,图像-文本对的bs=30720,第一阶段预训练总共50000步,大约消耗了15亿图像-文本对样本和5000亿个图像-文本token。第一阶段:在一组弱标注和精细数据集上训练,8XA100,训练400000步,bs=96,le-4,90h。原创 2024-04-19 11:27:07 · 1438 阅读 · 0 评论 -
多模态大模型训练数据以及微调数据格式
The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud. - Qwen-VL/README_CN.md at master · QwenLM/Qwen-VL。这里llava格式是应用最为广泛的,除了qwen-vl系列,几乎所有的系列都是llava格式。多模态数据,尤其是中文多模态数据,找一些中文多模态的数据。6423张Xray图片,原创 2024-04-17 19:42:49 · 2166 阅读 · 0 评论 -
多模态对齐方案
本文中我们介绍了 13 中常见的大型多模态模型(Large Multimodal Models, LMM),包括 BLIP-2,LLaVA、MiniGPT、Qwen-VL 以及 Ferret 等。最全 LMM 模型结构(13种)综述。单层linear投影、两层mlp。原创 2024-04-14 17:33:45 · 749 阅读 · 0 评论 -
多模态小模型总结
算法名:Multi-crop LLaVA-3b HF 模型地址: visheratin/MC-LLaVA-3b · Hugging Face博客地址: Breaking resolution curse of vision-language models简介 这并不是一篇论文算法,而是一种解决输入分辨率限制的…GitHub - LinkSoul-AI/Chinese-LLaVA: 支持中英文双语视觉-文本对话的开源可商用多模态模型。MoE-LLaVA:多模态大模型稀疏化,3B模型可与7B模型性能相当。原创 2024-04-11 17:58:21 · 1012 阅读 · 0 评论 -
Monkey:Image resolution and text label are important things for large multi-model models
解决方案包括:1.使用更大输入分辨率的预训练视觉模块,llava1.5,2.通过curriculum学习增加训练过程的分辨率,QWen-VL,PaLi-3,PaLi-X。Vit-BigHuge的视觉编码器+QWen-VL的llm。直接指令精调,H和W为448,以适配Qwen-VL的编码器,视觉重采样器可学习query为256,主要训练尺寸为896x896,Lora的注意力模块的秩为16,MLP为32,包括一个7.7B的llm,重参数模块是90M,编码器1.9B,lora为117M,整体参数为9.8B。原创 2023-12-12 11:45:56 · 200 阅读 · 0 评论 -
cogvlm:visual expert for large lanuage models
2.在预训练阶段,cation中的先验信息只能被编码到浅层对齐方法中的视觉特征中,这削弱了视觉特征和文本之间的一致性。visual expert模块:在语言模型的每一层上都加了visual expert,以实现深层次的视觉语言对齐,由一个QKV矩阵和一个MLP组成,和语言模型中的QKV矩阵,MLP的形状相同,并从语言模型中初始化,语言模型中的每个attention head捕捉语义信息,可训练的visual expert可以将图像特征转换为与不同的attention head对齐,从而实现深度融合。原创 2023-12-11 19:41:34 · 295 阅读 · 0 评论 -
Fuyu-8B: a multimodel architecture for ai agents
看看cogview1、cogview2:原创 2023-12-05 16:37:26 · 185 阅读 · 0 评论 -
stable diffusion webui电商基础模型
从我们公司产品提供的基础电商模型来看,主要就是 chilloutmix,dreamshaper,majicMIx,reVAnimated,realisticVision这几种。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。欢迎每一位创作者加入,分享你的作品。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。原创 2024-06-21 16:40:26 · 83 阅读 · 0 评论 -
stable diffusion 模型融合
use MBW:分层对模型融合,Merge Block Weighted,已经集成在superMerger中了,注意alpha和beta是两个模型加权的两个参数,Weights Setting和Weights Presets,后者里面有详细的参数,可以修改,Weights Setting->Werights for alpha->Preset中有很多模式,这些模式都是可选的。下面是官方的融合预设。模型合并:对多个模型进行加权混合,从而得到一个合并后的模型,简单的说,就是每个模型乘一个系数,然后混合在一起。原创 2024-06-21 15:47:12 · 309 阅读 · 0 评论 -
minigpt-v2:large language model as a unified interface for vision-lanuage multi-task learning
线性投影层:目标是将所有来自冻结的视觉backbone的视觉token投影到语言模型空间中,对于448x448这样的高分辨率图像,投影所有图像token会导致一个非常长的序列输入(1024个token),因此,简单的将embedding空间中4个相邻的数据token连接起来,并将他们一起投影到用一个特征空间的一个单一的embedding中,从而将视觉token的数量减少4倍。第一阶段:在一组弱标注和精细数据集上训练,8XA100,训练400000步,bs=96,le-4,90h。原创 2023-10-27 15:48:13 · 223 阅读 · 0 评论 -
blip2:Bootstrapping lanuage-image pre-training with frozen image encoders and large lanuage models
leared-queries是一个参数矩阵,本文中是32x768,即32个token,每个token的维度是768,远小于冻结图像特征的大小,例如ViT-L/14为257x1024,该参数作为transformer的Q,image encoder输出的图像特征一般也是768维度,token数量是N,输出N*768,作为transformer的K,V,有了QKV之后,三者就可以做cross-attention,从而完成图像特征的提取,可以将learned-queries理解为提取与文本最相关的视觉信息。原创 2023-10-27 14:48:12 · 203 阅读 · 0 评论 -
LLaVA:visual instruction tuning
主要目标是有效利用预训练的llm和视觉模型的能力,llama作为llm,预训练的clip视觉编码器ViT-L/14,提供Zv,用一个简单的线性层来将图像特征连接到单词embedding空间,用一个可训练的投影矩阵w将Zv转换为语言embedding标记Hq,其维度与语言模型中的单词embedding空间相同。对应于LLaVA的两个训练阶段,LLaVA的训练数据也分为两部分:预训练阶段的数据和微调阶段的数据。llava当时的GPT4还不支持图像输入,因此这样的测评也不完全能够展示GPT4的能力。原创 2023-10-27 10:35:08 · 2367 阅读 · 1 评论 -
Qwen-VL:A versatile vision-language model for understanding,localization,text reading and beyond
大语言模型:QWen-7B;在这个阶段,冻结了大语言模型,只优化视觉编码器和VL adapter,输入图像被调整为224x224,训练目标是最小化文本token的交叉熵,adamw,余弦学习率,最大lr=2e-4,最小lr=1e-6,训练过程中,图像-文本对的bs=30720,第一阶段预训练总共50000步,大约消耗了15亿图像-文本对样本和5000亿个图像-文本token。预训练使用了一个大规模的,弱标注,通过网络爬取的图像-文本对数据集,清洗之后保留14亿数据,其中77.3%为英文,22.7%为中文。原创 2023-10-10 15:42:18 · 836 阅读 · 0 评论 -
视觉大模型综述
FLIP, FLIP 是一种简单和更有效的训练 CLIP 的方法,其思想很简单,如图所示,就是将 MAE 的 Mask 操作引入到 CLIP 上,随机地 mask 掉具有高 mask 率的图像碎片,只对可见的碎片进行编码。ALIGN,利用了一个超过10亿图像-文本对的噪声数据集,无需过滤,一个简单的双编码器架构学习使用对比性损失来对齐图像和文本的视觉和语言表示,效果也不错,只要数据措大,简单方法,效果sota。模型先在多模态示例上训练,然后在高质量的图像和文本对上微调。原创 2023-08-16 10:35:04 · 4003 阅读 · 0 评论 -
XrayGLM微调实践
【官方教程】XrayGLM微调实践_哔哩哔哩_bilibili报告文件下载: https://pan.baidu.com/s/1gfdpyfT6EVnygMPDO_iwvQ?pwd=8wpc 提取码: 8wpc最近,通用领域的大语言模型 (LLM),例如 ChatGPT,在遵循指令和产生类似人类响应方面取得了显著的成功,这种成功间接促进了多模态大模型的研究和发展,如通用领域的多模态大模型MiniGPT-4、mPLUG-Owl、Multimodal-GPT和L, 视频播放量 5083、弹幕量 5、点赞数 20原创 2023-06-07 09:49:33 · 986 阅读 · 1 评论 -
Visualglm-6b
【官方教程】XrayGLM微调实践,(加强后的GPT-3.5)能力媲美4.0,无次数限制。原创 2023-06-06 20:28:53 · 1514 阅读 · 1 评论 -
vit的预训练方法
本文介绍一下最近被ICML2023接收的文章: A Closer Look at Self-Supervised Lightweight Vision Transformers.论文链接: https://arxiv.org/abs/2205.14443代码链接: https://github.com/wangsr126/mae-lite 导…VIT我之前一直任务意义不大,即便在有clip的时候,我也认为对传统的分割,检测影响不大,但是sam出来之后,我觉得vit在视觉领域的应用还是很广的。原创 2023-05-11 18:45:51 · 798 阅读 · 0 评论 -
BLIP:Bootstrapping language-image pre-training for unified VL understanding and generation
captioner是因为作者在训练出来decoder之后,发现blip的decoder很好,有时候它生成出来的句子要比原始的图像文本对要很多,即使原来的图文对是一个match,但是新生成出来的文本更加匹配,质量更高,因此作者想能不能使用生成的句子去做训练,作者也是在coco数据上把已经训练好的image grounded text decoder微调了一下,得到了captioner,使用captioner给图片生成新的句子,当然Ts的质量可高可低,最终通过captioner和filter来获取数据。原创 2023-05-09 14:23:11 · 179 阅读 · 0 评论 -
self-attention和cross-attention
一言以蔽之,就是cross-attention是在sequence之间不同位置的输入做attention,self-attention是在sequence内部做attention。self和cross attention的区别仅在q和kv的来源上,self-attention Q(uery)K(ey)V(alue)均来源与一个sequence,而cross-attention中Q来源于另一个sequence,而且多为跨模态的sequence。cross-attention混入了两种不同的序列。原创 2023-04-20 13:38:39 · 4700 阅读 · 1 评论 -
通用多模态预训练模型OFA
sequence to sequence原创 2023-04-07 08:24:38 · 184 阅读 · 0 评论 -
visual chatgpt:talking,drawing and editing with visual foundation models
例如上图:把图中的replace the sofa in this image with a desk and then make it like a water-color painting(把这张图中的沙发换成书桌,然后做成水彩画)第二个QA,左边是三轮QA,我没关注的是第二个QA,其中user query输入到prompt manager中,chatgpt决定下游是否使用vfm,若使用vfm则对问题进行拆分,首先进行替换,在进行inpainting操作,见右边,这就是cot。下游有一系列的基础应用。原创 2023-03-15 15:06:56 · 2761 阅读 · 0 评论 -
lxmert:learning cross-modality encoder representations from transformers
LXMERT: Learning Cross-Modality Encoder Representations from Transformers 论文笔记_小有名气的可爱鬼的博客-CSDN博客视觉 - 语言推理需要对视觉概念、语言语义有一定的理解,尤其还需要能在这两个模态之间进行对齐、找到关系。作者们提出了 LXMERT 框架来学习这些语言和视觉的联系,它含有三个编码器:一个对象关系编码器、一个语言编码器和一个跨模态编码器。为了让模型具备联系视觉和语言语义的能力,使用了 5 个不同的有代表性的预训练任务:原创 2022-06-20 10:53:11 · 1052 阅读 · 0 评论