- 博客(92)
- 收藏
- 关注
原创 多模态data-engine:英伟达Describe Anything: Detailed Localized Image and Video Captioning论文翻译和理解
1、为什么做:为图像和视频中特定区域生成详细且准确的文本描述仍旧是业界没有解决好的问题 2、怎么做:提出Describe Anything Model,通过focal-prompt和局部化视觉backbone完成的细粒度定位caption生成 3、数据怎么搞的:使用了半监督学习构建自动标注流水线,扩展了区域-caption数据集; 4、什么结果:在涵盖 “关键词级、短语级、细粒度多句描述” 的图像与视频定位字幕任务中,DAM 在 7 项基准测试上均达到SOTA。
2025-09-08 00:25:29
571
原创 多模态data-engine:Sa2VA: Marrying SAM2 with LLaVAfor Dense Grounded Understanding of Images and Videos
1、做了什么:首个用于图像与视频 “统一密集定位理解” 的模型,仅需少量 “单样本指令微调”,即可支持涵盖图像与视频的多种任务(包括指代分割、对话生成等)。 2、怎么做:SAM-2与LLaVA相结合,将文本、图像、视频统一到共享的LLM-token空间中。实现对静态与动态视觉内容的 “定位式多模态理解” 3、用了什么数据:提出自动标注数据集Ref-SAV,包含复杂视频场景中的 7.2 万余个对象描述; 4、取得了什么结果:在多项任务上均取得当前最佳SOTA,详见第四节benchmark
2025-09-08 00:25:05
981
原创 多模态标注data-engine:From Word to Sentence: A Large-Scale Multi-Instance Dataset for Open-Set Aerial Det
1、做了什么:构建一个大规模语言引导open-set的drone检测数据集,涵盖从 “单词-短语-句子” 三个层级的语言引导信息。 2、怎么做:提出OS-W2S Label Engine(开放集单词到句子标注引擎)的自动标注流水线,可处理航空图像的多样化场景标注任务 3、取得了什么结果:MI-OAD 包含 163,023 张图像与 200 万组 “图像 - caption” 对,规模约为同类数据集的 40 倍,GroundingDino使用后AP50提升29.5%,Recall10提升33.7%
2025-09-04 00:08:54
967
原创 强化微调:以Swift框架进行GRPO多模态模型强化微调为例
1、整体介绍:强化微调RFT的原因、步骤、作用以及常见的rft方式 2、dmeo举例:以Swift给的Qwen2.5-Math-7B-Instruct为例介绍了整个RFT的流程和代码细节 3、实际强化微调:以qwen/internVL为例完成一次指令微调并且使用强化学习进一步提升指标
2025-09-04 00:05:33
973
原创 详解常见的多模态大模型指令集构建
1、详细介绍了常见的多模态模型InternVL系列、Qwen系列、ms-swift、xtuner训练框架的数据集构造方法 2、详细的介绍了纯文本、单张图片、多张图片、grounding任务、视频任务的指令集构造方式 3、针对Omni模态,单独重点以qwen2.5-omni模型为例介绍如何构建
2025-08-30 18:40:31
755
原创 从0-1构建VLM模型-Molmo和PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
1、motivation:开源VLM本质上是利用闭源模型的合成数据进行蒸馏,业界缺乏从0开始构建的相关研究 2、contiibution:提出了Molmo和PixMo数据集,包括pretrain的图像描述集、微调的VQA集,以及创新性的二维指向数据集,同时混合了公开数据集和混合比例; 3、result:Molmo-72B超越了专有模型(Claude 3.5 Sonnet、Gemini 1.5 Pro 和 Gemini 1.5 Flash);在学术基准测试和大规模人类评估中,其性能均仅次于 GPT-4o)
2025-08-30 18:36:08
677
原创 视觉基础大模型DINOv3:自监督全面超越弱监督
1、数据规模和模型规模:数据集规模扩展到170亿和模型规模扩大到7B 2、模型结构:提出Gram anchoring,解决长期训练过程中密集特征图质量下降的问题 3、后处理优化:使用Post-hoc strategies提升模型在分辨率适配、模型尺寸调整及与文本对齐方面的灵活性 4、结果:该模型无需微调,就在广泛场景下超越了各类任务专用的自监督和半监督,且全部开源。
2025-08-24 19:49:18
1435
原创 Qwen2.5-Omni 技术报告:全模态的基础模型
1、Qwen2.5-Omni能够感知文本、图像、音频、视频等多种不同模态信息,同时以流式方式生成文本和自然语音响应。 2、核心难点:如何同时处理多模态的输入,包括位置编码、表征排列、流式输出等 3、怎么做:音频编码器与视觉编码器的分块处理方法 + TMRoPE位置编码 + Thinker-Talker 架构实现文本-语音的并行生成 + 滑动窗口 DiT降低时延 4、什么结果:视觉等同于Qwen2.5-VL ,语音优于 Qwen2-Audio ,流式Talker优于其他方案
2025-08-24 17:47:36
1180
原创 大模型的结构综述:LLM的Decoder-only和MLLM的Encoder-Decoder介绍
现状:Transformer主要分为Encoder和Decoder,LLM主要使用Decode-only的结构,MLLM主要使用Encode-Decode结构 为什么:LLM使用NTP进行自回归生成且训练推理高效,VLM/MLLM需要对多模态的输入进行encoder再进行Decoder 举例:GPT3/4系列等LLM使用Decoder-only,Qwen/InternVL等使用encoder-Decoder
2025-08-17 16:49:20
803
原创 音频-文本对比学习:LARGE-SCALE CONTRASTIVE LANGUAGE-AUDIO PRETRAINING论文翻译和理解
1、做了什么:提出了一种对比式语言 - 音频预训练流程,通过将音频数据与自然语言描述相结合来构建音频表征 2、怎么做的:发布了 LAION-Audio-630K的音频 - 文本对的大型数据集+构建了对比式语言 - 音频预训练模型 3、得到了什么结果:文本到音频检索、零样本音频分类和有监督音频分类都达到了SOTA 4、开源贡献:数据集和模型全部公开
2025-08-15 01:09:32
1046
原创 声音理解大模型MiDashengLM: Efficient Audio Understanding with General Audio Captions论文理解和翻译
1、如何得到:仅依赖于公开的预训练和监督微调(SFT)数据集进行训练得到的MiDashengLM 2、关键核心:集成了一个专门设计用于有效处理各种听觉信息的开源音频编码器—Dasheng 3、处理策略:将语音、声音和音乐信息融合成一个文本表示形式,从而实现了复杂音频场景的整体文本表征 4、速度/时延:比同类模型快4倍的首个token预测时间(TTFT)和高达20倍的吞吐量
2025-08-13 01:02:38
961
原创 多模态大模型和数据质量汇总(记录自己的paper阅读和理解)
汇总了对多模态大模型和CV大模型的一些理解,并记录了一流科技公司对数据驱动做看法和做法,后面持续更新这个表格
2025-08-08 01:33:41
992
原创 多模态大模型综述:InstructBLIP详解(第三篇)
1、做了什么:LLM可以做指令微调,VLM之前不可以,开发了VLM的Instruct turning的框架 2、怎么做:基于BLIP2模型,引入了一个instruction-aware Query Transformer模块,让文本特征指导图像特征的提取 3、取得了什么结果:InstructBLIP 在13 个数据集上取得了SOTA的结果,显著优于 BLIP-2 和Flamingo ,且开源所有模型
2025-08-07 00:33:13
1022
原创 多模态大模型综述:BLIP-2详解(第二篇)
1、为什么提出: VLM全参训练参数量太大,直接训练有问题 2、怎么做: 增加一个Qformer模块大幅度减少参数量(54x) 3、怎么训练: 继承BLIP的预训练+图文生成式预训练 4、什么结果: 训练速度超快且效果SOTA
2025-08-03 23:57:22
863
原创 多模态大模型综述:VIT/BLIP详解(第一篇)
1、详细介绍了多模态encoder的,本文只包括VIT和BLIP 2、VIT通过将输入图片切成patch+位置向量,将分类任务转换为序列预测任务 3、BLIP同时包括图文对比学习、图文分类、图文生成学习3个任务进行联合训练,并开发了一个利用带噪音数据的pipeline
2025-08-01 01:06:15
826
1
原创 数据合成-Self-Instruct:Aligning Language Modelswith Self-Generated Instructions 低成本指令集合成
1、为什么要做?模型严重依赖人工编写的指令数据,指令数据在数量、多样性和创造性方面存在局限 2、怎么做?通过利用语言模型自身的生成结果进行自举,提升预训练语言模型的指令遵循能力 3、具体流程:从语言模型中生成指令、输入和输出样本,过滤无效或相似的样本后,再用这些样本对原始模型进行微调 4、取得了什么结果?应用于基础版 GPT-3,实现了 33% 的绝对提升,与 InstructGPT-001 的性能相当
2025-07-30 00:37:54
770
原创 CLAP文本-音频基础模型: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION
1、现在的做法有什么问题?主流范式是 “一个类别标签对应多个录音”,需要提前标注+预测预先定义的类别,只能做闭集理解,失去灵活性 2、我们怎么做?通过两个编码器和对比学习机制建立语言与音频的关联,将音频和文本描述映射到一个联合的多模态空间进行对齐 3、做得怎么样?12.8 万对音频 - 文本训练,在8 个领域的 16 项下游任务中评估,即使训练数据小于CV模型,Zero-Shot上达到了SoTA。finetune后在5项评估任务中也是SOTA能做什么?
2025-07-27 21:58:20
874
原创 多模态大模型数据合成-Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis论文翻译和理解
11、为什么做数据合成?MLLMS的性能归功于大规模的训练数据,但是数据不开源且标注成本很高 2、怎么做?仅向多模态大语言模型输入图像作为提示,同时控制指令质量,就能够生成高质量多模态指令集 3、实验成果:收集了超过 50 万条数据,并通过消融实验论证方法有效(在垂直领域有效、在通用领域也有效、控制指令的质量有效、回收caption也有效)
2025-07-23 01:06:47
760
原创 详解大模型的位置编码-positional encoding
1、为什么要有位置编码:需要知道绝对位置信息、相对位置信息和不同位置之间的距离 2、位置编码需要有什么特点:用来表示绝对位置、相对位置和距离、表示从没看过的句子长度 3、有什么类型的位置编码:绝对位置编码、相对位置编码ALiBi和旋转位置编码RoPE 4、会遇到什么问题?长度外推问题 5、怎么解决?直接外推、线性内插、进制转换、位置线性内插和NTK-Aware scaled RoPE
2025-07-13 22:19:35
1049
原创 CV大模型预训练scaling law:On Data Scaling in Masked Image Modeling论文翻译和理解
1、自监督学习的重要目标是模型预训练能够从几乎无限的数据中受益。 2、CV领域与LLM同样存在scaling law曲线,并不是无法从大规模数据中受益 3、MIM的大型模型需要更多的数据和更长的训练,如果训练次数不够,扩大数据量意义不大 4、预训练中的验证损失是衡量模型在多个任务上微调表现的一个良好指标<验证损失和下游任务性能存在负相关>
2025-06-30 00:58:39
3000
原创 CV大模型预训练MAE:Masked Autoencoders Are Scalable Vision Learners论文理解和翻译
1、提出一种用于CV的可扩展自监督学习方案Masked AutoEncoders(MAE) 2、这种可扩展的方法允许学习具有高容量的模型,这些模型具有良好的泛化能力 3、ViT-Huge模型在仅使用ImageNet-1K数据的方法中实现了最高的准确率(87.8%),在下游任务中的迁移性能超过了监督预训练
2025-06-29 15:48:54
3283
原创 CV大模型预训练-DINOv2: Learning Robust Visual Featureswithout Supervision 论文翻译和解读
1、提供了一个有效的数据收集/清洗的pipeline,借助这个pipeline也获得了高质量的数据集LVD-142M 2、提出了一种新的判别式-自监督预训练方法,本质上是在DINO+iBOT等多个自监督方法的组合 3、给出了SOTA自监督方法的在各类下游任务benchmark,且给出了蒸馏过后的小模型的涨点指标 4、开源了一系列高性能的预训练模型
2025-06-26 01:13:53
3244
原创 大模型应用:如何使用Langchain+Qwen部署一套Rag检索系统
1、从0-1使用qwen chat model+ langchain的链式架构搭建一套rag系统 2、详细介绍了Langchain的工具链的调用流程 3、简单介绍了可能会出现什么问题
2025-06-22 23:03:00
1527
原创 RAG综述(下篇):Retrieval-Augmented Generation for Large Language Models: A Survey论文理解和翻译
上一篇讲了RAG的工作流、RAG的分类和发展趋势,这一片主要讲RAG检索的细节:1、在检索器里面如何实现高效、高准确度的检索2、在生成器里面如何实现将检索到的信息转换成流程的文本输出3、如何评估这是一个好的RAG和对应的下游任务评估指标
2025-06-20 00:34:46
1468
原创 RAG综述(上篇):Retrieval-Augmented Generation for Large Language Models: A Survey论文理解和翻译
1、为什么要做RAG:LLMs面临着幻觉、过时知识和不透明、不可追溯的推理过程等挑战 2、RAG如何提升性能:通过整合持续更新的外部数据库的知识和特定领域信息,增强了模型的准确性和可信度 3、RAG的范式和发展:Naive RAG、Advanced RAG和Modular RAG,这三种范式之间的关系是继承和发展的关系。 4、不同RAG的局限性和解决手段:三个RAG范式引入了什么模块具体解决了什么问题
2025-06-18 00:14:36
1645
原创 数据质量-如何构建高质量的大模型数据集
1、重要性:数据质量 > 数据数量 2、数据质量提升原则:提升数据多样性和分布和提升数据质量和高质量数据数量 3、具体如何提升:针对传统NN任务、LLM任务和MLLMs任务,方法和侧重点不一样 4、如何使用这些方法:将这些方法做成算子写入pipeline框架进行大规模使用
2025-06-15 22:34:09
1998
原创 大模型是SFT好还是Retrieval好?Fine-Tuning or Retrieval?Comparing Knowledge Injection in LLMs
1、LLMs 在其预训练权重中包含了大量的事实信息,这种知识本质上是有限的2、SFT和 RAG是改进 LLMs的重要方法,RAG比无监督微调要好 3、LLMs 在无监督微调中难以学习新的事实信息(很难直接对他进行知识注入,严格意义上来说是引入对特定领域的偏好来“刷新”其记忆)4、训练集的repeat是有意义的,改写prompt来重复能够增强模型性能5、VLM和LLM一样也不需要sft?我持怀疑态度
2025-06-09 00:46:55
1597
原创 分词算法总结:不同分词算法的优点和缺点
分词算法总结:1、总结不同分词算法的优点和缺点2、word-based/Character based/Subword-based Tokenizers
2025-06-08 22:33:12
1804
原创 分词算法BBPE详解和Qwen的应用
1、BPE有什么问题:依旧会遇到OOV问题,并且中文、日文这些大词汇表模型容易出现训练中未出现过的字符2、Byte-level BPE怎么解决:与BPE一样是高频字节进行合并,但BBPE是以UTF-8编码UTF-8编码字节序列而非字符序列3、Byte-level BPE利用utf-8编码,利用动态规划解码,最大程度的还原字符的语义和上下文信息(这是我理解为什么LLM能够通过NTP进行理解的最主要原因)4、Qwen是使用BBPE算法,增加了中文的能力,词汇表包括151,643 tokens
2025-06-02 15:30:35
2259
原创 分词算法BPE详解和CLIP的应用
1、BPE通过替换相邻最频繁的字符和持续迭代来实现压缩2、CLIP对text进行标准化和预分词后,对每一个单词进行BPE编码和查表,完成token_id的转换3、LLama和InternVL根据paper和代码推断也是使用BPE分词算法
2025-05-25 19:30:55
2116
原创 理想AI Talk第二季-重点信息总结
1、理想为什么要做自己的基模:座舱家庭等特殊VLM场景,deepseek/openai没有解决2、理想的基模参数量:服务端-300B,VLencoder-32B/3.6B,日常工作使用-300B,VLA-4B3、为什么自动驾驶可以达成:规则已知,类比机器人的自由度小,能够做的比人好4、VLA如何训练:基座模型pretrain、VLA后训练,强化学习训练,最后是agent5、讲了很多公司的理念,我觉得挺好的,但是这部分就不在本文体现了
2025-05-19 00:08:35
1088
原创 大模型的scaling laws:Scaling Laws for Neural Language Models
1、Loss与模型size、数据集大小以及用于训练的计算量呈幂律关系其他架构细节,如网络宽度或深度,在较宽范围内影响极小2、简单的公式可以描述过拟合与模型/数据集大小的依赖关系,以及训练速度与模型大小的依赖关系3、作用:固定计算预算的最优分配。更大的模型显著更样本高效4、记住标红的小节结论就行了,重要的是结论和学习如何做消融实验的思路
2025-04-28 22:42:12
1950
原创 InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models论文理解
1、InternVL3采用了一种原生的多模态预训练范式,在预训练阶段就从多样化的多模态数据和纯文本语料库中共同获取多模态和语言能力2、InternVL3引入了可变视觉位置编码(V2PE)以支持扩展的多模态上下文,采用了先进的post training技术(SFT+MPO)3、InternVL3在多种多模态任务中表现卓越,InternVL3-78B在MMMU基准测试中获得了72.2分,与闭源商业模型相比也具备高竞争力
2025-04-16 00:19:26
1235
原创 Qwen2.5-VL Technical Report 论文翻译和理解
1、Qwen2.5-VL是QwenVL的最新模型,在视觉识别、精准目标定位、稳健文档解析以及长视频理解等方面实现了重大突破2、引入了动态分辨率处理和绝对时间编码,使其能够处理不同尺寸的图像以及长达数小时的视频,并实现秒级事件定位3、数据集上建立了一个自动化filter的流程,使得模型能够获取高质量数据4、在现实世界场景(如操作计算机和移动设备)中具备推理、工具使用和任务执行能力。可在不同领域实现强大的zero-shot泛化能力
2025-04-13 21:58:15
1526
原创 ChatRex: Taming Multimodal LLM for Joint Perception and Understanding 论文理解和翻译
1、MLLM在感知方面存在不足,比如Qwen2-VL在coco上recall只有43.9%2、2提出了ChatRex,旨在从模型设计和数据开发两个角度来填补这一感知能力的缺口3、ChatRex通过proposal边界框输入到LLM中将其转化为retrieval任务4、构建了一个data-engine,提出了Rexverse-2M数据集,支持了感知和理解的联合训练。
2025-04-13 00:10:17
1150
原创 InternVideo2.5:Empowering Video MLLMs with Long and Rich Context Modeling
1、InternVideo2.5通过LRC建模来提升MLLM的性能。2、层次化token压缩和任务偏好优化(mask+时空 head)整合到一个框架中,并通过自适应层次化token压缩来开发紧凑的时空表3、MVBench/Perception Test/EgoSchema/MLVU数据benchmark上提升明显
2025-04-09 00:01:00
1942
原创 数据质量:From Quantity to Quality: Boosting LLM Performance with Self-GuidedData Selection for Instruct
在大型语言模型(LLMs)的领域中,指令数据的质量与数量之间的平衡是一个关键点。1、提出了一种自我引导的方法,使LLMs能够自主识别并从开源数据集中选择最佳样本,从而有效减少人工策划和对LLMs指令微调的潜在成本。2、指令遵循难度(IFD)指标成为识别模型预期响应与其内在生成能力之间差异的关键指标。3、通过应用IFD,在Alpaca和WizardLM等数据集上模型仅使用原始数据5%-10%的樱桃数据就可以达到全量数据微调的效果
2025-04-07 23:15:27
1011
1
原创 数据蒸馏:Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching
1、数据集蒸馏只有在合成样本的总数极小时才有效。由于如此少的样本所能包含的信息有限,似乎要实现真正无损的比较难2、本研究提出了一种合成数据集规模增长仍保持有效的蒸馏方法算法,并阐明了现有方法为何无法生成更大规模、高质量的合成数据集。3、轨迹匹配是最SOTA的方法,即优化合成数据以诱导与真实数据相似的长期训练动态。但区分早期轨迹和后期轨迹,4、将生成模式的难度与合成数据集的大小相匹配。通过这样做,我们首次成功地将基于轨迹匹配的方法扩展到更大的合成数据集,实现了无损数据集蒸馏
2025-04-06 23:34:40
1515
原创 数据蒸馏:Dataset Distillation by Matching Training Trajectories 论文翻译和理解
1、数据集蒸馏的任务是合成一个较小的数据集,使得在该合成数据集上训练的模型能够达到在完整数据集上训练的模型相同的测试准确率,号称优于coreset的选择方法2、本文中,对于给定的网络,我们在蒸馏数据上对其进行几次迭代训练,预先计算并存储在真实数据集上训练的专家网络的训练轨迹,并根据合成训练参数与在真实数据上训练的参数之间的距离来优化蒸馏数据。3、有一个问题哈,这种蒸馏方法强依赖GT,如果新增数据优化模型,没有GT可能还是只能使用coreset的方法来做
2025-04-05 23:03:01
1097
原创 大模型高质量rag构建:A Cheat Sheet and Some Recipes For Building Advanced RAG
1、给出了典型的基础rag并定义了2条rag是成功的要求2、基于2条rag的成功要求给出了构建高级rag的相关技术,包括块大小优化、结构化外部知识、信息压缩、结果重排等3、对上述所有的方法,给出了llama的demo代码和相关的其他参考链接
2025-03-31 23:35:51
1024
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人