- 博客(907)
- 资源 (1)
- 收藏
- 关注
原创 DeepSeekMath-V2、DeepSeek-Prover、DeepSeek-Prover-V2
来自https://arxiv.org/pdf/2511.22570,个人感觉贡献远没有提出GRPO的DeepSeekMath大。简单来说思路就是Reward Model一部分输入从自己整一个meta_verification,一个GRPO过程变成了2个GRPO过程,通过meta_verification验证证明的过程对不对,这非常符合人类证明的过程。
2026-02-06 13:53:40
171
原创 RollPacker、HistoSpec、SPEC-RL、AReal、StreamRL
来自RollPacker:Mitigating Long-Tail Rollouts for Fast,Synchronous RL Post-Training。
2026-02-04 14:48:23
616
原创 mHC(Manifold-Constrained Hyper-Connections)粗读
HC(Hyper-Connections),本来是标准的残差连接的替代设计——标准的残差连接,原来向量多长(多少维),传下去的还是多长,这一步做的只是一个简单的相加,把上一步算出的新信息加到旧信息上。HC 则把这一步简单的新旧相加,变成一个更复杂的计算。向量本身会变长很多(比如 4 倍)。多出来的空怎么填?这里先不展开,放在后面说。简单说是一种新旧信息的“混合搅拌”。传统的残差连接简单相加的方式,可能太机械,不能充分利用信息。但事实证明,
2026-02-04 13:37:53
244
转载 thinking budge的一些思路
Qwen3 的思考预算就是根据设置的思考 token 长度,超限后简单粗暴的停止思考,实现方式应该是给它默认拼一个结束标签,这样它就会开始正式回答。我试了挺多问题的,大部分问题其实都用不了 1024 token,最后是找了一个数学问题:“请证明 15 盘河内塔的最少步数,并列出前 50 步的搬运方案。”,才测出来它的上限。转载自 https://www.xiaohongshu.com/explore/6810a55200000000220290d5?
2026-01-31 22:44:37
11
原创 Qwen VL问题汇总
保持图文原始顺序与语义关联将图像有效转化为 LLM 可处理的 token 序列确保训练数据的图文一致性与多样性这类数据是通向通用多模态智能(如能读图写文、看图说话、图文推理)的基础,也是当前 MLLM 前沿研究的重点方向。
2026-01-31 17:16:31
699
原创 vLLM中的repetition_penalty、frequency_penalty和presence_penalty
在vLLM中,和是三个专门用于控制文本生成重复性的关键参数。虽然目标相似,但它们的实现逻辑和作用范围各有侧重。下面这个表格能帮你快速把握它们的核心区别。
2026-01-29 20:53:21
312
原创 投机解码理解误区Fast Inference from Transformers via Speculative Decoding
最早论文来自https://arxiv.org/pdf/2211.17192 和 https://arxiv.org/pdf/2302.01318,以下对理解上的一些误区集中记录一下。
2026-01-21 18:38:38
627
原创 [DeepSeek] gpu_memory_utilization=0.7的时候没有OOM,等gpu_memory_utilization=0.8的时候反而OOM了?
设置结果原因分析正常运行vLLM 分配的内存块数量在物理显存的可承受范围内,留有安全缓冲。OOM 错误vLLM 试图分配更多内存块,但由于内存碎片分配开销或工作负载变化,总内存需求超过了物理显存的实际可用连续空间。简单来说,gpu_memory_utilization是一个软性目标,而不是一个硬性上限。将它设得越高,系统就越接近悬崖边缘,任何微小的波动(碎片、请求变化)都可能导致跌落(OOM)。
2025-09-15 13:55:15
655
原创 masked_whiten为什么不用 whitened += mean*torch.rsqrt(var + 1e-8)?
看到了RL代码中经常用到的masked_whiten,最近产生了一个问题,为什么shift_mean=False的情况下,要whitened += mean,而不是whitened += mean*torch.rsqrt(var + 1e-8)给他还原回去?分析了一下均值和方差,whitened = (values - mean) * torch.rsqrt(var + 1e-8)后得到的均值为0,方差为1。
2025-09-03 19:51:56
309
原创 DFT、CHORD
来自 ON THE GENERALIZATION OF SFT: A REINFORCEMENT LEARNING PERSPECTIVE WITH REWARD RECTIFICATION(https://arxiv.org/abs/2508.05629),中文版介绍可以参考https://mp.weixin.qq.com/s?DFT的梯度如下公式,梯度绝对值正比于∇θπθyt⋆∣yt⋆x,也就是。
2025-08-27 19:34:41
669
原创 MetaCLIP、SigLip、EvaCLIP、XCLIP
其核心目标是通过改进CLIP的训练效率和模型架构,实现更大参数量的高性能视觉-语言对齐模型。例如,EvaCLIP-18B模型参数量达到180亿,通过弱到强知识蒸馏(从较小模型逐步训练更大模型)实现性能提升。(第四通道),用于指定图像中需要关注的区域(0表示背景,1表示前景)。这一通道通过掩码(mask)、框(box)或交互标记(如点、笔触)生成,为模型提供空间注意力引导。,目标是将图像-文本预训练模型(如CLIP)高效迁移到视频领域,无需额外视频-文本预训练数据。由智源团队提出,专注于。
2025-08-22 11:10:13
1077
原创 Numerical Difference between vLLM logprobs and huggingface logprobs
本文比较了vLLM和HuggingFace在语言模型推理时的输出差异。代码首先使用vLLM生成文本并记录token概率,然后使用HuggingFace Transformers重新计算相同输入的logits。通过对比两者的logprobs和概率值,发现存在一定差异:在概率低于0.9时,相对误差可能超过10%。统计结果显示,vLLM与HuggingFace之间的logprob相对误差均值约为0.004,概率绝对误差均值约为0.0005,表明虽然两者总体一致,但在细节上存在可测量差异。
2025-08-15 21:47:02
198
转载 Approximating KL Divergence(VeRL中low_var_kl)
解释来自http://joschu.net/blog/kl-approx.html。
2025-08-04 22:39:26
335
原创 REINFORCE、Remax、GRPO、DR.GRPO、DAPO、REINFORCE++、GPG、OPO、GSPO、SAPO、CLIP-COV、VC-PPO、VAPO对比
PPO:依赖于一个与策略模型大小相当的价值网络(critic model)来估计优势函数(advantage function)。这个价值网络需要在每个时间步对状态进行评估,计算复杂度高,内存占用大。
2025-07-04 20:30:50
620
转载 为什么训大模型都不用dropout
关于dropout的问题,其实还真有人研究过,让他的不一致行为分布变得一致,也就是alpha dropout,但这玩意,也只是尽力而已,现在很多框架已经把把这个放进去了,但大家用的还是不多,在一致性和效率,稳定性上多多少少还有些问题,或者按下葫芦起了瓢。比如回归等数值和分布敏感的问题上,有两个经典的trick,一个是标签转换(把销量预测的值域转换到0到1,这玩意连lightgbm都有用),一个就是去掉dropout,尤其是类似文章打分这样的场景。大模型的玩法变成了猛猛加大模型,猛猛洗数据,猛猛过拟合。
2025-05-24 14:05:11
145
转载 为什么 GRPO 容易出现 reward 崩塌?DAPO的改进
摘要: GRPO在大模型训练中易出现奖励骤降问题,因其舍弃了Critic网络(传统AC架构中的“知”),仅依赖在线估计Advantage函数以节省存储。相比PPO等带Critic的算法,GRPO稳定性较差,但DeepSeek通过海量数据降低梯度方差弥补了这一缺陷。对于中小规模训练,数据量不足时GRPO的稳定性问题会凸显,建议采用带Critic的算法(如PPO)。文章还探讨了AC架构中文译名差异,主张“知行互动”更贴合中国文化。 (150字)
2025-05-24 13:59:04
2385
转载 Conv、BN、Relu融合
这篇文章主要介绍了如何把BatchNorm和ReLU合并成一个Conv,从而加速量化推理。按照计划,应该和之前的文章一样,给出代码实现。但我在测试代码的时候发现有一些bug需要解决,正好也控制一下篇幅,下篇文章会给出相关的代码实现。
2025-04-15 16:39:06
578
原创 Embedding质量评估、空间塌缩、 Alignment & Uniformity
空间塌缩指Embedding在高维空间中聚集到低维子空间,导致信息冗余和性能下降,常见于推荐系统和生成模型。Embedding质量的评估和空间塌缩的解决是自然语言处理(NLP)和推荐系统领域的关键问题。在对比表征学习(Contrastive Representation Learning)中,(均匀性)是两个核心概念,用于衡量学习到的特征表示的质量。分别从局部和全局角度刻画特征空间的特性,是理解与改进对比学习模型的重要理论基础。
2025-04-13 22:42:07
1118
原创 Deepseek Bart模型相比Bert的优势
BART的核心优势在于其双向编码与自回归解码的融合架构多样化的去噪预训练策略以及多任务的统一适配性。相较于BERT,BART不仅继承了双向上下文理解能力,还突破了生成任务的限制,成为NLP领域更通用的解决方案。实际应用中,BART尤其适用于需生成与理解协同的场景(如对话系统、跨模态任务),而BERT更偏向纯文本理解任务。
2025-04-13 22:34:58
1647
原创 Deepseek IP-Adapter与InstantID的区别
前者通过解耦注意力机制扩展多模态生成能力,后者则通过领域专用模块(如IdentityNet)实现高精度身份保持。实际应用中,IP-Adapter更适合风格化创作,而InstantID在需要强ID保真的场景(如虚拟人像)表现更优。IP-Adapter与InstantID均为基于扩散模型的图像生成控制技术,但两者的算法设计目标、核心模块及应用场景存在显著差异。IP-Adapter与InstantID分别代表了扩散模型中。
2025-04-13 20:15:32
720
原创 DeepSeek BLEU和ROUGE(Recall)的计算
(Recall-Oriented Understudy for Gisting Evaluation) 的原生Python实现(不依赖第三方库),通过分步计算逻辑和示例详细说明。通过原生Python实现,可以更深入理解这些指标的计算逻辑,适用于定制化需求或教学场景。(Bilingual Evaluation Understudy)和。
2025-04-13 20:08:24
745
原创 [英语] precarious、trecherous、hazardous、perilous
不稳定导致危险→precarious(如经济、结构问题)。广泛危险→dangerous。健康/环境危害→hazardous。迫在眉睫的危险→perilous。主动冒险→risky。隐藏危险→trecherous。通过词义侧重和具体场景的匹配,可更精准地选择词汇。
2025-04-13 16:42:01
1031
转载 多模态视觉token压缩方法(持续更新)
转载自 https://zhuanlan.zhihu.com/p/8776092026。除了QFormer外,暂时没发现哪个思路是更主流的,持续关注。
2025-04-12 21:38:41
285
原创 [英语] undue、excessive、inordinate、unwarranted的区别
若强调"超出合理范围且带有不适当性",首选undue;若单纯描述"过量",用excessive;若涉及"失控或极端",用inordinate;若需突出"缺乏依据",用。
2025-04-12 20:11:50
558
原创 [英语] abominable、detestable、despicable、odious、contemptible的区别
词汇核心侧重典型场景情感强度abominable极端恶劣,道德败坏罪行、环境、气味★★★★★detestable主观憎恨个人厌恶的行为(如谎言)★★★★despicable道德卑鄙背叛、欺骗等行为★★★★odious违背普世价值的可憎政治制度、抽象概念★★★★★因卑劣而轻蔑自私、懦弱等性格缺陷★★★参考语境形容纳粹统治时,丘吉尔用odious(网页3);而abominable更适合具体罪行或恶劣天气(网页4、6)。若需表达对某人的强烈道德谴责,despicable或。
2025-04-12 20:05:45
1167
原创 大模型SFT用chat版还是base版 SFT后灾难性遗忘怎么办
进行 SFT 时,基座模型选用 Chat 还是 Base 模型?选 Base 还是 Chat 模型,首先先熟悉 Base 和 Chat 是两种不同的大模型,它们在训练数据、应用场景和模型特性上有所区别。在训练数据方面,Base 模型是基于海量语料库进行的无监督学习。它从大量文本中学习语言模式和知识,而不需要人工标注或监督。相比之下,Chat 模型则是在指令微调的有监督学习下进行训练的。这意味着它使用人工标注的数据集进行训练,以便更好地理解和响应特定指令。
2025-04-12 19:14:50
1151
原创 TransformerEncoderLayer、DecoderOnly的大模型用的TransformerEncoder、TransformerDecoder之间的区别
简单来说,TransformerEncoderLayer和DecoderOnly的大模型用的TransformerEncoder都是过完self MHA后过FFN(但有如下列的若干区别,mask当然首当其冲);TransformerDecoder比TransformerEncoder多了cross MHA,当然mask也有较大的变化。
2025-04-10 21:31:13
628
原创 Leetcode 279. Perfect Squares 动态规划
【代码】Leetcode 279. Perfect Squares 动态规划。
2025-04-08 14:00:15
340
原创 [英语] replete 和 rife 的区别
若需进一步辨析具体语境中的用法,可参考上述来源。(这空间可能充满幸福与荣耀。(白宫充斥着他辞职的传言。(腐败在城市中泛滥。
2025-04-07 07:47:30
476
转载 排序学习调研 LTR learning to rank
转载自 http://xtf615.com/2018/12/25/learning-to-rank/
2025-04-07 07:46:03
87
原创 CVLM和GVLM、CLIP等缺点与改进
CLIP的局限性主要集中在数据质量、泛化能力、计算效率及任务适应性上。数据清洗与增强:减少噪声和偏见,引入合成数据或自监督学习提升数据效率。混合训练目标:结合对比学习与生成式目标,增强复杂任务处理能力。轻量化部署:优化模型架构(如剪枝、量化)或采用硬件加速技术提升推理速度。如需更详细的技术分析或具体应用案例,可参考相关研究论文或开源项目实现。
2025-04-06 13:13:45
1143
原创 为什么卷积核的尺寸是奇数
在CNN中,进行卷积操作时一般会以卷积核模块的一个位置为基准进行滑动,这个基准通常就是卷积核模块的中心。若卷积核为奇数,卷积锚点很好找,自然就是卷积模块中心,但如果卷积核是偶数,这时候就没有办法确定了,让谁是锚点似乎都不怎么好。
2025-04-06 11:48:00
375
原创 Leetcode 311 Sparse Matrix Multiplication 稀疏矩阵相乘
Given two sparse matrices A and B, return the result of AB.You may assume that A’s column number is equal to B’s row number.Example:SolutionTransform B into defaultdict(dict)GPU Solution,来自DeepSeek的总结根据2025年最新研究进展,GPU处理稀疏矩阵乘法(SpMM/SparseGEMM)的主流算子可分
2025-04-06 11:15:35
1158
原创 DyT (Transformers without Normalization)
省流版: DyT 的灵感来自于这样一个观察结果,即 Transformers 中的层归一化通常会产生类似 tanh 的 S 型输入输出映射。加入 DyT 后,没有归一化的 Transformers 在大多数情况下无需调整超参数,就能达到或超过归一化对应层的性能。因此DyT是LayerNorm/RMSNorm在Transformer类模型中的平替,但是在CNN中替换BatchNorm效果下降比较多。
2025-04-02 07:50:10
423
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅