FesianXu-CSDN博客

原创奖励模型中的尺度扩展定律和奖励劫持

最近在考古一些LLM的经典老论文，其中有一篇是OpenAI于ICML 2023年发表的文章，讨论了在奖励模型（Reward Model）中的尺度扩展规律（Scaling Laws），也即是通过扩展奖励模型的模型大小、数据量等去提升奖励模型的能力...

2025-02-06 12:25:34 1073

原创 MeCo——给预训练数据增加源信息,就能减少33%的训练量并且提升效果

最近看到一篇预训练的文章，只在每条预训练数据的前面加上一个源信息（即是该信息的URL信息），就能加速训练（+33%）并且提升下游任务的效果，本文进行阅读笔记。如有谬误请见谅并联系指出，本文遵守。关键字：大模型预训练、源信息、加速训练、提升效果∇\nabla∇知乎：https://www.zhihu.com/people/FesianXu微信公众号：机器学习杂货铺3号店最佳阅读体验见： https://fesianxu.github.io/2025/01/11/MeCo-20250111/

2025-01-11 12:06:10 909

原创 DoReMi——一种通过代理模型估计大模型预训练最佳数据配比的方法

LLM的预训练是决定其底座能力的至关重要的步骤，其预训练数据通常会包含有多种领域的数据，如何调整不同领域的数据配比（可以理解为采样频率）是极其重要的大模型预训练研究点。本文介绍DeepMind提出的一种基于代理模型去估计最佳数据配比的方法，

2025-01-05 23:59:50 1036

原创大模型偏好对齐中的DPO和PPO方法

本文探讨了大语言模型（LLM）训练中的偏好对齐方法，重点介绍了直接偏好优化（DPO）和近端策略优化（PPO）两种方法。偏好对齐通过对比正负样本（如奖励模型筛选或人工标注）优化模型回答质量，避免仅依赖行为模拟（SFT）导致的泛化不足问题。DPO通过引入初始模型约束和Bradley-Terry偏好模型，稳定训练过程并防止奖励劫持。实验表明，无约束优化易生成无意义回答，而DPO结合KL散度约束能有效提升回答质量。文章还提供了DPO的代码示例，强调对比式对齐通过显式划分回答空间，增强模型对生成内容的判别能力。

2025-09-13 01:35:00 806

原创视觉大语言模型未能充分利用视觉表征

视觉大语言模型存在视觉表征利用率不足问题。研究表明，在视觉为中心任务（如语义匹配、深度估计等）中，VLM性能显著低于仅使用视觉特征的评估结果，接近随机猜测水平。通过实验分析发现，视觉信息在VLM处理过程中并未明显衰减，但底座LLM对视觉特征的利用能力成为主要瓶颈。微调LLM层可提升对关键视觉区域的注意力，但仍无法达到纯视觉特征的效果。该研究揭示了VLM架构中LLM模块对视觉信息处理的局限性，而非之前普遍认为的视觉编码器缺陷。

2025-06-19 12:57:50 931

原创 BoNBoN——结合行为模仿和偏好对齐进行Best-of-N对齐的方法

BoNBoN方法，结合行为模仿与偏好对齐，利用Best-of-N采样结果进行模型蒸馏。实验表明，该方法在KL约束下实现渐进最优策略，以更小的模型偏离取得更高胜率，性能优于传统RLHF和DPO基线。

2025-03-20 20:36:07 1147

原创给定计算预算下的最佳LLM模型尺寸与预训练数据量分配

如果给定了计算预算C，如何分配LLM的模型尺寸N和训练的数据量D，才能使得模型的效果L最好呢？

2025-03-05 21:18:15 1002

原创大模型推理时的尺度扩展定律

大模型的尺度扩展定律告诉我们：『LLM的性能会随着模型的参数量、模型的训练量、模型的训练数据量的增加而增加』。训练存在尺度扩展定律，测试也存在尺度扩展定律，实践告诉我们在推理时候增大计算量，往往可以获得模型性能收益。那么在给定了计算预算的前提下，如何安排预算才能达到最好的模型效果呢？

2025-03-02 23:58:53 816

原创从一个例子开始，理解互联网岗位分工

今年应该又有不少牛马涌入互联网，简单用一个例子，讲下自己对互联网岗位分工的理解，欢迎评论区友好交流，保留文章著作权，请勿转载。互联网岗位可以粗糙地分为：专业序列和管理序列（有些公司是双轨制，有些公司的基层管理可能同时负责技术和管理），其中大部分牛马都应该是专业序列，大概可分为：职能岗（比如人力资源）、产品岗、技术岗、运营岗，其中我们熟悉的技术岗有可以继续细分到：开发岗位（前端、后端）、算法岗位、数据岗位、测试岗位、运维岗位、设计美术岗、基础建设岗位等等。

2025-02-09 22:32:30 922

原创 RLHF中的on-policy和off-policy的区别

On-policy方法（如PPO）在LLM和RLHF中主要用于需要实时生成文本的场景，虽然训练稳定，但采样效率较低Off-policy方法（如DPO）则更适合利用历史数据进行高效训练，尤其在大规模数据和异步训练场景中表现出色选择哪种方法取决于具体的应用场景和资源限制。

2025-02-07 18:56:43 1134

原创 Verifier 和 Reward Model 的区别

Verifier 可以是一个独立的模型或模块，也可以是一个简单的规则检查器。Reward Model 通常是一个独立的模型，用于对模型的输出进行评分。

2025-02-07 14:44:57 638

原创胡思乱想：世界多胞体与大模型

（Interpolation）得到，在世界多胞体之内的知识，只要提供了世界多胞体的节点集合（也可以认为是整个世界的最小知识集合），我认为是可以通过大模型去学习然后内插得到其他知识的，最终大模型得以建模整个世界多胞体，我把这个大模型称之为。此处，我假设世界大模型是没法进行。的真子集，其组成的世界多胞体，如Fig 1的蓝色区块所示（此处为了绘图方便，用二维图形代表多胞体），可以认为是整个世界的知识边界，在其之外是未知知识的空间，其中的淡蓝色圆点表示可以通过世界多胞体节点集合。我给出的定义是，每一个世界中的。

2025-02-06 20:28:09 922

原创基于shell的简单好用多进程wrapper

可以通过切分数据的方式，通过shell就可以直接进行多进程处理，可以参考以下过程。

2024-12-17 16:32:04 252

原创 CatLIP，加速2.7倍！采用分类损失的CLIP水准的预训练视觉编码器

传统的CLIP采用对比学习的方式进行预训练，通常需要汇聚多张节点的多张设备的特征向量以进行打分矩阵的计算，训练速度通常都较慢，本文介绍一种采用传统的BCE损失进行多标签分类的方式，在提速2.7倍的同时，能达到CLIP的模型性能

2024-11-09 15:14:17 1222 1

原创解耦多模态大模型中的视觉语义压缩与视觉语义摘要

在多模态大模型中，视觉连接器大致可以分为压缩型和非圧缩型，其中BLIP2提出的Q-Former [1] 是压缩型视觉连接器的代表工作之一。在论文 [2] 中，作者对Q-Former的作用提出了质疑和分析，本文进行笔记，希望对读者有所帮助。

2024-11-06 00:48:25 916

原创 Alignment与Correspondence，用于量化衡量MLLM中视觉特征的视觉语义对齐与视觉结构程度的方法

在多模态大模型（Multimodal Large Language Model， MLLM）中，视觉特征就像是人的眼睛，而底座的LLM则像是人的大脑，合适的视觉特征的选择通常都是一个MLLM成功的重要一步。本文介绍一种可以用于高效选择合适的视觉特征的方法，如有谬误请见谅并联系指出，本文遵守。关键字：高效的MLLM视觉特征选择、定量衡量视觉语义对齐、定量衡量视觉结构特征知乎专栏:计算机视觉/计算机图形理论与应用微信公众号：机器学习杂货铺3号店视觉编码器，可以是CLIP、SigLIP、DINO等。

2024-10-06 15:19:53 1435 2

原创 SigLIP——采用sigmoid损失的图文预训练方式

CLIP中的infoNCE损失是一种对比性损失，在SigLIP这个工作中，作者提出采用非对比性的sigmoid损失，能够更高效地进行图文预训练

2024-09-08 22:24:03 4184

原创 LexLIP——图片搜索中的多模态稀疏化召回方法

最近笔者在回顾&笔记一些老论文，准备整理下之前看的一篇论文LexLIP，其很适合在真实的图片搜索业务场景中落地，希望笔记能给读者带来启发。

2024-07-28 18:58:51 1452

原创【论文极速读】可微分检索索引（Differential Search Index， DSI）

最近从朋友处得知了DSI这个概念，所谓的可微分检索索引DSI，就是通过语言模型将检索过程中的索引和召回阶段端到端地融合在一起，输入query模型直接输出docid，笔者今日抽空看了下原论文，简单笔记下，希望对各位读者有所帮助。

2024-07-14 22:52:38 1101

原创基于CLIP特征的多模态大模型中的视觉短板问题

如今的大多数多模态大模型，其视觉输入侧采用的视觉编码器，都是依照CLIP的训练方式，采用大规模对比学习进行训练的。在论文 [1] 中，作者发现CLIP特征具有某些视觉短板，从而导致基于此的MLLM也受到了影响。作者观察到，在一些简单直接（不需要复杂推理）的问题上，MLLM似乎并不能很好解决...

2024-07-06 18:17:05 1700 2

原创万字浅析视频搜索系统中的多模态能力建设

视频搜索是天然的富媒体检索场景，视觉信息占据了视频的一大部分信息量，在视频搜索系统中引入多模态能力，对于提高整个系统的能力天花板至关重要。本文将对在视频搜索系统中落地多模态能力（特别是视觉）进行讨论，同时为了让部分无相关背景的读者补充一些背景知识...

2024-06-30 21:35:16 2828

原创给自己Linux搞个『回收站』，防止文件误删除

linux没有像windows里一样的回收站，工作时候删除文件容易不小心删错，造成麻烦的后果。同时，可以考虑新增一个清除回收站的脚本，定期运行保证空间干净。由于保存了时间戳，时间超过当前7天的文件就可以删除掉了。在删除的时候，会在原文件名字后面新增删除时的时间戳信息。中alias rm命令到这个脚本，即是。，然后在里面新增，将。

2024-06-06 12:18:23 618

原创【论文极速读】 LLava: 指令跟随的多模态大语言模型

如何将已预训练好的大规模语言模型（LLM）和多模态模型（如CLIP）进行融合，形成一个多模态大语言模型（MLLM）是目前很火热的研究课题。本文将要介绍的LLava是一个经典的工作，其采用了指令微调的方式对MLLM进行训练，笔者在此笔记，希望对诸位读者有所帮助。

2024-05-19 23:05:34 2841 1

原创【论文极速读】引入复读负样本，一种打破LLM复读问题的方法

最近工作里面遇到了LLM复读的问题，去翻了下论文，看到有一篇尝试通过引入负样本解决复读问题的工作，有所启发，在此简单介绍下，希望对大家有所帮助。如有谬误请见谅并联系指出，本文遵守。∇\nabla∇联系方式：知乎专栏: 计算机视觉/计算机图形理论与应用微信公众号：机器学习杂货铺3号店LLM的复读问题，一般有几种级别的复读，如下所示字粒度的复读：User: 你喜欢北京么？AI: 北京是中国的首都，有很多名胜古迹，如长城，故宫，天坛等，我十分喜欢欢欢欢欢欢欢欢欢欢欢欢…

2024-05-12 19:16:36 1112

原创【论文极速读】指令微调BLIP：一种对指令微调敏感的Q-Former设计

之前笔者在[1]中曾经介绍过BLIP2，其采用Q-Former的方式融合了多模态视觉信息和LLM，本文作者想要简单介绍一个在BLIP2的基础上进一步加强了图文指令微调能力的工作——InstructBLIP，希望对诸位读者有所帮助。

2024-03-31 20:57:32 1469

原创【见闻录系列】再论系统复杂度控制：错误控制与复盘

3年工作经验分享

2024-03-12 23:12:33 978

原创 Kosmos-2: 在多模态大语言模型中引入基准和指代能力

kosmos-2：一种提供了基准和指代能力的多模态大语言模型

2024-03-05 19:21:21 1553

原创 Kosmos-1: 通用接口架构下的多模态大语言模型

kosmos 构建一个通用接口的多模态大语言模型

2024-03-03 11:23:06 1577

原创【论文极速读】MetaLM：一种融合因果语言模型和非因果语言模型的方法

最近我在恶补一些经典的LLM工作，之前也精读过MetaLM这个工作但是没有及时笔记，现在已经有些遗忘了，因此在过年期间复习了下，在此笔记希望对诸位有所帮助。

2024-02-19 19:39:42 1334

原创【论文极速读】Flamingo：一种交织图文的视觉语言大模型方法

Flamingo算是DeepMind的多模态融合LLM的一个较老的工作了（2022年），之前粗略读过没来得及及时总结，本次过年笔者重新细读了论文，发现其在50多页的论文中有着不少细节，本文对该工作进行读后感笔记。

2024-02-17 16:59:53 13234 2

原创 BLIP2——采用Q-Former融合视觉语义与LLM能力的方法

大规模语言模型（Large Language Model,LLM）是当前的当红炸子鸡，展现出了强大的逻辑推理，语义理解能力，而视觉作为人类最为主要的感知世界的手段，亟待和LLM进行融合，形成多模态大规模语言模型（Multimodal LLM, MLLM），BLIP-2这篇文章利用已经充分训练好的图片编码器和LLM模型，通过Q-Former巧妙地融合在一起，在引入少量待学习参数的同时，取得了显著的效果。本文将对BLIP2进行笔记和笔者个人感想纪录，希望对诸位读者有所帮助。

2024-02-03 18:45:31 5178 1