lovep1-CSDN博客

原创大模型是SFT好还是Retrieval好？Fine-Tuning or Retrieval?Comparing Knowledge Injection in LLMs

1、LLMs 在其预训练权重中包含了大量的事实信息，这种知识本质上是有限的2、SFT和 RAG是改进 LLMs的重要方法，RAG比无监督微调要好 3、LLMs 在无监督微调中难以学习新的事实信息（很难直接对他进行知识注入，严格意义上来说是引入对特定领域的偏好来“刷新”其记忆）4、训练集的repeat是有意义的，改写prompt来重复能够增强模型性能5、VLM和LLM一样也不需要sft？我持怀疑态度

2025-06-09 00:46:55 721

原创分词算法总结：不同分词算法的优点和缺点

分词算法总结：1、总结不同分词算法的优点和缺点2、word-based/Character based/Subword-based Tokenizers

2025-06-08 22:33:12 928

原创分词算法BBPE详解和Qwen的应用

1、BPE有什么问题：依旧会遇到OOV问题，并且中文、日文这些大词汇表模型容易出现训练中未出现过的字符2、Byte-level BPE怎么解决：与BPE一样是高频字节进行合并，但BBPE是以UTF-8编码UTF-8编码字节序列而非字符序列3、Byte-level BPE利用utf-8编码，利用动态规划解码，最大程度的还原字符的语义和上下文信息（这是我理解为什么LLM能够通过NTP进行理解的最主要原因）4、Qwen是使用BBPE算法，增加了中文的能力，词汇表包括151,643 tokens

2025-06-02 15:30:35 1079

原创分词算法BPE详解和CLIP的应用

1、BPE通过替换相邻最频繁的字符和持续迭代来实现压缩2、CLIP对text进行标准化和预分词后，对每一个单词进行BPE编码和查表，完成token_id的转换3、LLama和InternVL根据paper和代码推断也是使用BPE分词算法

2025-05-25 19:30:55 1119

原创理想AI Talk第二季-重点信息总结

1、理想为什么要做自己的基模：座舱家庭等特殊VLM场景，deepseek/openai没有解决2、理想的基模参数量：服务端-300B，VLencoder-32B/3.6B，日常工作使用-300B，VLA-4B3、为什么自动驾驶可以达成：规则已知，类比机器人的自由度小，能够做的比人好4、VLA如何训练：基座模型pretrain、VLA后训练，强化学习训练，最后是agent5、讲了很多公司的理念，我觉得挺好的，但是这部分就不在本文体现了

2025-05-19 00:08:35 1016

原创大模型的scaling laws：Scaling Laws for Neural Language Models

1、Loss与模型size、数据集大小以及用于训练的计算量呈幂律关系其他架构细节，如网络宽度或深度，在较宽范围内影响极小2、简单的公式可以描述过拟合与模型/数据集大小的依赖关系，以及训练速度与模型大小的依赖关系3、作用：固定计算预算的最优分配。更大的模型显著更样本高效4、记住标红的小节结论就行了，重要的是结论和学习如何做消融实验的思路

2025-04-28 22:42:12 836

原创 InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models论文理解

1、InternVL3采用了一种原生的多模态预训练范式，在预训练阶段就从多样化的多模态数据和纯文本语料库中共同获取多模态和语言能力2、InternVL3引入了可变视觉位置编码（V2PE）以支持扩展的多模态上下文，采用了先进的post training技术（SFT+MPO）3、InternVL3在多种多模态任务中表现卓越，InternVL3-78B在MMMU基准测试中获得了72.2分，与闭源商业模型相比也具备高竞争力

2025-04-16 00:19:26 909

原创 Qwen2.5-VL Technical Report 论文翻译和理解

1、Qwen2.5-VL是QwenVL的最新模型，在视觉识别、精准目标定位、稳健文档解析以及长视频理解等方面实现了重大突破2、引入了动态分辨率处理和绝对时间编码，使其能够处理不同尺寸的图像以及长达数小时的视频，并实现秒级事件定位3、数据集上建立了一个自动化filter的流程，使得模型能够获取高质量数据4、在现实世界场景（如操作计算机和移动设备）中具备推理、工具使用和任务执行能力。可在不同领域实现强大的zero-shot泛化能力

2025-04-13 21:58:15 1042

原创 ChatRex: Taming Multimodal LLM for Joint Perception and Understanding 论文理解和翻译

1、MLLM在感知方面存在不足，比如Qwen2-VL在coco上recall只有43.9%2、2提出了ChatRex，旨在从模型设计和数据开发两个角度来填补这一感知能力的缺口3、ChatRex通过proposal边界框输入到LLM中将其转化为retrieval任务4、构建了一个data-engine，提出了Rexverse-2M数据集，支持了感知和理解的联合训练。

2025-04-13 00:10:17 1028

原创 InternVideo2.5：Empowering Video MLLMs with Long and Rich Context Modeling

1、InternVideo2.5通过LRC建模来提升MLLM的性能。2、层次化token压缩和任务偏好优化（mask+时空 head）整合到一个框架中，并通过自适应层次化token压缩来开发紧凑的时空表3、MVBench/Perception Test/EgoSchema/MLVU数据benchmark上提升明显

2025-04-09 00:01:00 844

原创数据质量：From Quantity to Quality: Boosting LLM Performance with Self-GuidedData Selection for Instruct

在大型语言模型（LLMs）的领域中，指令数据的质量与数量之间的平衡是一个关键点。1、提出了一种自我引导的方法，使LLMs能够自主识别并从开源数据集中选择最佳样本，从而有效减少人工策划和对LLMs指令微调的潜在成本。2、指令遵循难度（IFD）指标成为识别模型预期响应与其内在生成能力之间差异的关键指标。3、通过应用IFD，在Alpaca和WizardLM等数据集上模型仅使用原始数据5%-10%的樱桃数据就可以达到全量数据微调的效果

2025-04-07 23:15:27 934 1

原创数据蒸馏：Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching

1、数据集蒸馏只有在合成样本的总数极小时才有效。由于如此少的样本所能包含的信息有限，似乎要实现真正无损的比较难2、本研究提出了一种合成数据集规模增长仍保持有效的蒸馏方法算法，并阐明了现有方法为何无法生成更大规模、高质量的合成数据集。3、轨迹匹配是最SOTA的方法，即优化合成数据以诱导与真实数据相似的长期训练动态。但区分早期轨迹和后期轨迹，4、将生成模式的难度与合成数据集的大小相匹配。通过这样做，我们首次成功地将基于轨迹匹配的方法扩展到更大的合成数据集，实现了无损数据集蒸馏

2025-04-06 23:34:40 953

原创数据蒸馏：Dataset Distillation by Matching Training Trajectories 论文翻译和理解

1、数据集蒸馏的任务是合成一个较小的数据集，使得在该合成数据集上训练的模型能够达到在完整数据集上训练的模型相同的测试准确率，号称优于coreset的选择方法2、本文中，对于给定的网络，我们在蒸馏数据上对其进行几次迭代训练，预先计算并存储在真实数据集上训练的专家网络的训练轨迹，并根据合成训练参数与在真实数据上训练的参数之间的距离来优化蒸馏数据。3、有一个问题哈，这种蒸馏方法强依赖GT，如果新增数据优化模型，没有GT可能还是只能使用coreset的方法来做

2025-04-05 23:03:01 974

原创大模型高质量rag构建：A Cheat Sheet and Some Recipes For Building Advanced RAG

1、给出了典型的基础rag并定义了2条rag是成功的要求2、基于2条rag的成功要求给出了构建高级rag的相关技术，包括块大小优化、结构化外部知识、信息压缩、结果重排等3、对上述所有的方法，给出了llama的demo代码和相关的其他参考链接

2025-03-31 23:35:51 990

原创数据蒸馏：Dataset Distillation with Neural Characteristic Function: A Minmax Perspective论文理解

1、基于分布的数据蒸馏效果比较好，但是距离度量往往无法准确的捕捉分布差异，导致不可靠性2、本文将数据集蒸馏表述为minmax优化问题，引入了神经特征函数差异（NCFD），实现了合成样本的真实性和多样性的平衡（就是生成了更接近真实数据的压缩后数据）3、在低分辨率和高分辨率数据集上达到SOTA，GPU内存使用量减少了３００ｘ，速度提升２０ｘ，仅使用２.３GB的显存2080TI在CIFAR100上无损压缩

2025-03-31 00:17:08 881

原创大模型思维链COT：Chain-of-Thought Prompting Elicits Reasoningin Large Language Models

1、探索了COT（chain-of-thought prompting）通过一系列的中间推理步骤来显著的提升了LLM的复杂推理能力2、2在三个大型语言模型上的实验表明，思维链提示能够提升模型在一系列算术、常识和符号推理任务上的表现3、解释了一下为什么COT有效，见3.3节：老实说我觉得全是猜测4、给出了一些局限性：比如模型参数超过1000亿才work，cot并不是真正的模仿人类在推理等等；

2025-03-25 23:29:03 1209 2

原创大模型RLHF训练-PPO算法详解：Proximal Policy Optimization Algorithms

1、提出了一种新的策略梯度方法家族，用于强化学习，这些方法交替进行与环境交互采样数据2、提出了一个新的目标函数，使得能够进行多个小批量更新的多轮训练3、这些新方法为近端策略优化（Proximal Policy Optimization，PPO），它们具有一些信任域策略优化的优点4、证明PPO优于其他在线策略梯度方法，并且总体上在样本复杂度、简单性和运行时间之间取得了有利的平衡。

2025-03-23 23:21:04 1318

原创 centernet2阅读笔记：Probabilistic two-stage detection

paper：https://arxiv.org/pdf/2103.07461.pdfcode：https://github.com/xingyizhou/CenterNet2 centernet我觉得是最优雅的框架之一，v1版本可以看我的前文，我在作者的代码上做了一个prune的版本，v2来了，非常迫不及待的学习一下，前面的DETR我都写不下去了，先来研究一下这篇paper，code是基于detectron2的，吐槽一下，现在很多代码都是基于mmdetection或者detectron2，工业..

2025-03-18 22:41:42 583

原创单目3d detection算法记录

1、centernet object as points这篇文章的核心单目3d检测主要是利用中心点直接回归出3d模型的所有属性，head共享整个backbone，其中3d属性包括：2d目标中心点、2dw和h、2d offsets、3doffsets、3d dimmession、rot还有depth。其中对应的depth是根据kitti中的外参矩阵来进行计算得到的，同时推理的也是全局角度，如下所示：KITTI 数据集参数—— tracking devkit中的rotation_y和alp..

2025-03-18 22:39:34 1022

原创 Channel-wise Knowledge Distillation for Dense Prediction论文阅读和

paper：https://arxiv.org/pdf/2011.13256.pdfcode：https://github.com/open-mmlab/mmrazor这篇paper主要是商汤开源的mmrazor中提及在detection有效果，我之前记录的几篇sota文章虽然在各自的paper中在detection领域都有提及有增益，但实际上在我的测试中，可能由于模型容量或者其他原因，收益都几乎不可见，但是这篇文章是商汤开源的，我认为应该具有比较好的含金量，因此再分析和实验一波。摘要：k.

2025-03-18 22:35:16 710 1

原创 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 论文阅读

1、为什么要这么做？预训练模型越来越大，比如GPT-3 175B训练独立变得越来越不可行2、方法：冻结预训练模型的权重，在Transformer架构的每一层中注入可训练的低秩分解矩阵3、效果：训练参数量减少10000x，GPU显存减少3x，且不像adapter引入额外的推理延迟

2025-03-16 21:57:28 1789 1

原创 Qwen2.5-7B-Instruct进行自我认知微调

Qwen2.5-7B-Instruct进行自我认知微调

2025-03-09 22:14:55 1215

原创 InternVL2.5：Expanding Performance Boundaries of Open-SourceMultimodal Models 论文理解

1、继承InternVL 2.0核心模型架构的基础上，系统地探索了视觉编码器、语言模型、数据集大小以及测试时配置的性能趋势，应该还有一个（预）训练策略2、第一个在MMMU基准测试中超过70%的开源MLLM，通过链式思维（CoT）推理实现了涨点3.7%3、探索了一种data filter的数据方式，确保数据的高质量（MLLM去重，filter+人工）

2025-03-08 23:33:22 1430

原创 Mini-InternVL: A Flexible-Transfer PocketMultimodal Model with 5% Parameters and 90%Performance 论文理解

1、开发了10亿到40亿不等的MLLM系列，其性能达到InternVL2.0的90%，而参数量仅为5%2、为Mini-InternVL开发了一个统一的适配框架（检测、分类、问答、理解等任务），使模型能够在下游任务中实现迁移3、给出了一些不同任务训练的数据混合参数，有极大的参考意义

2025-03-03 23:53:36 1551

原创 InternVL1.5：How Far Are We to GPT-4V?Closing the Gap to Commercial Multimodal Models

1、持续学习策略：针对大规模基础视觉模型InternVit-6B提升能力的同时还能够被其他LLMs复用2、动态高分辨率：根据输入图像的宽高比和分辨率，将图像划分为1到40个448×448像素的patch，支持高达4K分辨率的输入3、高质量双语数据集：涵盖常见场景、图像，并用英语和中文问答标注InternVL1.5在18个多模态benchmark中达到sota（8项最佳）4、跟1.0比起来：去掉了QLLaMA，增加了上述三点，还有更换了LLM的组件进行组合

2025-03-02 22:56:47 1194

原创 InternVL: Scaling up Vision Foundation Models and Aligningfor Generic Visual-Linguistic Tasks

1、设计了一个大规模的视觉语言模型InternVL，将视觉模型扩展到60亿参数，并于LLM进行对齐2、采用了3个阶段进行逐步对齐，在视觉感知任务上，视觉语言和MLLMs上实现先进的性能

2025-03-01 23:12:31 1411

原创多模态基础模型第二篇-deepseek-r1部署

分别使用本地windows和云端linux进行部署，测试不同硬件资源的模型推理性能：

2025-02-16 22:27:53 894

原创多模态基础模型-InternVideo2：Scaling Video Foundation Models for Multimodal Video Understanding

1、模型训练上，设计了一种渐进式的训练方法，将掩码视频建模、跨模态对比学习和下一个token预测统一起来，2、数据质量上，强调时空一致性，通过语义分割视频并生成视频-音频-caption，改善了视频和文本之间的对齐3、将参数量扩展到了60亿，视频识别、视频-文本任务、音频和以及视频中心对话取得sota

2025-02-16 17:25:25 1833

原创多模态基础模型训练笔记-第一篇InternVL-g

将之前所有训练过的大模型的过程都总结和回忆一下，遇到的坑别忘了

2025-02-15 22:53:41 833

原创数据质量-SemDeDup: Data-efficient learning at web-scale through semantic deduplication

1、LAION/C4这些大型数据集存在大量冗余和重复2、本文可以通过数据质量从语义上减少数据的冗余和重复3、甚至可以减少训练的iteration数指标不变，进一步减少迭代时间和资源，且该方法在分布为的数据性能也有所提升

2025-02-09 19:59:00 1320

原创数据质量-MetaCLIP：DEMYSTIFYING CLIP DATA

CLIP成功的关键因素是其数据，而不是模型架构或预训练引入了元数据整理语言-图像预训练（MetaCLIP），在相同的训练预算的情况下，取得了sota的指标70.8%（open-ai：68.3%）；paper公开了这个数据处理的pipline

2025-02-02 00:39:49 1025

原创核心集：DeepCore: A Comprehensive Library for CoresetSelection in Deep Learning

核心集的目的是选择最具信息量的训练子集，但之前的coreset选择方法不是为了深度学习设计的，会导致效果差作者贡献了deepcore的工具，集成了最近很多关于深度学习的核心集选择方法在Imagenet/cifar10等数据集上验证，结论如下：在CIFAR10数据集上，基于次模函数的方法在小核心集<1%时表现最佳，比其他方法高出5%以上。在ImageNet数据集上，基于误差的方法（如遗忘和GraNd）在小核心集（少于10%）时表现较好。当核心集大小增加到30%以上时，随机选择成为了一个强大

2025-02-01 01:32:03 1293

原创 DataComp：探索下一代多模态数据集

整体方式：提出DataComp，相较于传统的dataset不变，改变算法的方式，而是保持整个训练代码和计算资源不变，改变新的数据集从而达到指标的提升等创新

2025-01-28 01:08:50 1361

原创 DFN：Data Filtering Network 论文阅读和理解

对于给定的DFN和数据池子，用于训练DFN的数据池称之为过滤数据集，用于DFN过滤后构建的数据集是诱导数据集，将DFN的性能定义为诱导模型的性能，该性能是通过标准的基准测试上评估得到的（例如DataComp上一样），则DFN的质量就是诱导数据集训练出来的模型的强度，apple是基于DataComp来构建的；经验也确实如此，不再加一级人工逻辑数据集几乎无法直接使用，clip的判断在图像文本对的描述如果足够细节的情况下，极其容易出错，尤其是在小批量数据增加上，会给实际训练的模型带来退化；

2025-01-20 01:15:14 2029 2

原创百度Apollo Day数据驱动串讲

一、我写的目的为什么要看apollo：技术方案和原理是讲解最清晰的我该怎么做：总结和对标他的设计，复用到自己的工作上将现有的还未建设的模块用到自己的工作里面去二、先占个座（下周写吧）

2025-01-05 22:18:34 1083

原创 tesla openday数据驱动串讲

1、tesla的数据驱动全流程代表着的sota，总结和沉淀他的方法2、总结后与自己现在的理念做一次对标，查漏补缺3、找到自己现在的主要问题，聚焦下一阶段的投入

2024-12-29 23:11:53 2201

原创文本图像多模态基础-clip的细节解读

主要是要学习open-ai的思路和实验，如何将这些方法论使用到自己的工作上，用来区分低阶算法工程师和高阶的手段

2024-12-22 22:52:01 1635

原创自监督表征预训练-MINM解读

MIM：将图像中的某些图像块mask掉，然后用其他剩下的可见的图像块来预测被mask掉的图像块，然后进一步讲将这个任务变成一个接入下游任务的基础任务，将这个预训练的模型编程图像的编码器，则该编码器具备丰富的representation（表征和语义信息）

2024-12-22 20:27:16 170

原创 t-rex2开放集目标检测

这篇文章的工作是基于t-rex1的工作继续做的，核心亮点：是支持图片/文本两种模态的prompt进行输入，甚至进一步利用两种模态的组合来达到检测和检索的目的，比如文本检索目标、以图搜图或者两个组合的方式（文中详细论述了2种prompt输入的重要性和必要性）还有一个非常关键的地方，t-rex2开放了一个负样本抑制的方法，这个极大的缓解了开集目标检测器中使用clip作为head导致的分类器出问题从而有大量误检的情况（我觉得）可以作为zero-shot的检测器或者一些快速数据集生成的data-engine

2024-03-24 17:51:11 3588 1

原创 Distilling Knowledge via Knowledge Review论文和源码阅读笔记

1、paper：https://arxiv.org/pdf/2104.09044.pdf2、code：https://github.com/dvlab-research/ReviewKD思谋科技出品的paper，d2的源码，是不是考虑白嫖一波，先分析一下paper的思想

2021-12-01 21:48:18 1775 3

空空如也

空空如也