taoqick-CSDN博客

转载为什么训大模型都不用dropout

关于dropout的问题，其实还真有人研究过，让他的不一致行为分布变得一致，也就是alpha dropout，但这玩意，也只是尽力而已，现在很多框架已经把把这个放进去了，但大家用的还是不多，在一致性和效率，稳定性上多多少少还有些问题，或者按下葫芦起了瓢。比如回归等数值和分布敏感的问题上，有两个经典的trick，一个是标签转换(把销量预测的值域转换到0到1，这玩意连lightgbm都有用)，一个就是去掉dropout，尤其是类似文章打分这样的场景。大模型的玩法变成了猛猛加大模型，猛猛洗数据，猛猛过拟合。

2025-05-24 14:05:11 19

转载为什么 GRPO 容易出现 reward 崩塌？DAPO的改进

摘要： GRPO在大模型训练中易出现奖励骤降问题，因其舍弃了Critic网络（传统AC架构中的“知”），仅依赖在线估计Advantage函数以节省存储。相比PPO等带Critic的算法，GRPO稳定性较差，但DeepSeek通过海量数据降低梯度方差弥补了这一缺陷。对于中小规模训练，数据量不足时GRPO的稳定性问题会凸显，建议采用带Critic的算法（如PPO）。文章还探讨了AC架构中文译名差异，主张“知行互动”更贴合中国文化。（150字）

2025-05-24 13:59:04 114

转载 Conv、BN、Relu融合

这篇文章主要介绍了如何把BatchNorm和ReLU合并成一个Conv，从而加速量化推理。按照计划，应该和之前的文章一样，给出代码实现。但我在测试代码的时候发现有一些bug需要解决，正好也控制一下篇幅，下篇文章会给出相关的代码实现。

2025-04-15 16:39:06 122

原创 Embedding质量评估、空间塌缩、 Alignment & Uniformity

空间塌缩指Embedding在高维空间中聚集到低维子空间，导致信息冗余和性能下降，常见于推荐系统和生成模型。Embedding质量的评估和空间塌缩的解决是自然语言处理（NLP）和推荐系统领域的关键问题。在对比表征学习（Contrastive Representation Learning）中，（均匀性）是两个核心概念，用于衡量学习到的特征表示的质量。分别从局部和全局角度刻画特征空间的特性，是理解与改进对比学习模型的重要理论基础。

2025-04-13 22:42:07 750

原创 Deepseek Bart模型相比Bert的优势

BART的核心优势在于其双向编码与自回归解码的融合架构多样化的去噪预训练策略以及多任务的统一适配性。相较于BERT，BART不仅继承了双向上下文理解能力，还突破了生成任务的限制，成为NLP领域更通用的解决方案。实际应用中，BART尤其适用于需生成与理解协同的场景（如对话系统、跨模态任务），而BERT更偏向纯文本理解任务。

2025-04-13 22:34:58 1118

原创 Deepseek IP-Adapter与InstantID的区别

前者通过解耦注意力机制扩展多模态生成能力，后者则通过领域专用模块（如IdentityNet）实现高精度身份保持。实际应用中，IP-Adapter更适合风格化创作，而InstantID在需要强ID保真的场景（如虚拟人像）表现更优。IP-Adapter与InstantID均为基于扩散模型的图像生成控制技术，但两者的算法设计目标、核心模块及应用场景存在显著差异。IP-Adapter与InstantID分别代表了扩散模型中。

2025-04-13 20:15:32 494

原创 DeepSeek BLEU和ROUGE（Recall）的计算

(Recall-Oriented Understudy for Gisting Evaluation) 的原生Python实现（不依赖第三方库），通过分步计算逻辑和示例详细说明。通过原生Python实现，可以更深入理解这些指标的计算逻辑，适用于定制化需求或教学场景。(Bilingual Evaluation Understudy)和。

2025-04-13 20:08:24 457

原创 [英语] precarious、trecherous、hazardous、perilous

不稳定导致危险→precarious（如经济、结构问题）。广泛危险→dangerous。健康/环境危害→hazardous。迫在眉睫的危险→perilous。主动冒险→risky。隐藏危险→trecherous。通过词义侧重和具体场景的匹配，可更精准地选择词汇。

2025-04-13 16:42:01 515

转载多模态视觉token压缩方法（持续更新）

转载自 https://zhuanlan.zhihu.com/p/8776092026。除了QFormer外，暂时没发现哪个思路是更主流的，持续关注。

2025-04-12 21:38:41 59

原创 [英语] undue、excessive、inordinate、unwarranted的区别

若强调"超出合理范围且带有不适当性"，首选undue；若单纯描述"过量"，用excessive；若涉及"失控或极端"，用inordinate；若需突出"缺乏依据"，用。

2025-04-12 20:11:50 337

原创 [英语] abominable、detestable、despicable、odious、contemptible的区别

词汇核心侧重典型场景情感强度abominable极端恶劣，道德败坏罪行、环境、气味★★★★★detestable主观憎恨个人厌恶的行为（如谎言）★★★★despicable道德卑鄙背叛、欺骗等行为★★★★odious违背普世价值的可憎政治制度、抽象概念★★★★★因卑劣而轻蔑自私、懦弱等性格缺陷★★★参考语境形容纳粹统治时，丘吉尔用odious（网页3）；而abominable更适合具体罪行或恶劣天气（网页4、6）。若需表达对某人的强烈道德谴责，despicable或。

2025-04-12 20:05:45 857

原创大模型SFT用chat版还是base版 SFT后灾难性遗忘怎么办

进行 SFT 时，基座模型选用 Chat 还是 Base 模型？选 Base 还是 Chat 模型，首先先熟悉 Base 和 Chat 是两种不同的大模型，它们在训练数据、应用场景和模型特性上有所区别。在训练数据方面，Base 模型是基于海量语料库进行的无监督学习。它从大量文本中学习语言模式和知识，而不需要人工标注或监督。相比之下，Chat 模型则是在指令微调的有监督学习下进行训练的。这意味着它使用人工标注的数据集进行训练，以便更好地理解和响应特定指令。

2025-04-12 19:14:50 925

原创 einops版GQA MSA

【代码】[WIP] einops版GQA MSA。

2025-04-11 14:55:24 335

原创 TransformerEncoderLayer、DecoderOnly的大模型用的TransformerEncoder、TransformerDecoder之间的区别

简单来说，TransformerEncoderLayer和DecoderOnly的大模型用的TransformerEncoder都是过完self MHA后过FFN（但有如下列的若干区别，mask当然首当其冲）；TransformerDecoder比TransformerEncoder多了cross MHA，当然mask也有较大的变化。

2025-04-10 21:31:13 493

原创 Leetcode 279. Perfect Squares 动态规划

【代码】Leetcode 279. Perfect Squares 动态规划。

2025-04-08 14:00:15 246

原创 [英语] replete 和 rife 的区别

若需进一步辨析具体语境中的用法，可参考上述来源。（这空间可能充满幸福与荣耀。（白宫充斥着他辞职的传言。（腐败在城市中泛滥。

2025-04-07 07:47:30 323

转载排序学习调研 LTR learning to rank

转载自 http://xtf615.com/2018/12/25/learning-to-rank/

2025-04-07 07:46:03 27

原创 CVLM和GVLM、CLIP等缺点与改进

CLIP的局限性主要集中在数据质量、泛化能力、计算效率及任务适应性上。数据清洗与增强：减少噪声和偏见，引入合成数据或自监督学习提升数据效率。混合训练目标：结合对比学习与生成式目标，增强复杂任务处理能力。轻量化部署：优化模型架构（如剪枝、量化）或采用硬件加速技术提升推理速度。如需更详细的技术分析或具体应用案例，可参考相关研究论文或开源项目实现。

2025-04-06 13:13:45 932

原创为什么卷积核的尺寸是奇数

在CNN中，进行卷积操作时一般会以卷积核模块的一个位置为基准进行滑动，这个基准通常就是卷积核模块的中心。若卷积核为奇数，卷积锚点很好找，自然就是卷积模块中心，但如果卷积核是偶数，这时候就没有办法确定了，让谁是锚点似乎都不怎么好。

2025-04-06 11:48:00 232

原创 Leetcode 311 Sparse Matrix Multiplication 稀疏矩阵相乘

Given two sparse matrices A and B, return the result of AB.You may assume that A’s column number is equal to B’s row number.Example:SolutionTransform B into defaultdict(dict)GPU Solution，来自DeepSeek的总结根据2025年最新研究进展，GPU处理稀疏矩阵乘法（SpMM/SparseGEMM）的主流算子可分

2025-04-06 11:15:35 872

原创 DyT （Transformers without Normalization）

省流版： DyT 的灵感来自于这样一个观察结果，即 Transformers 中的层归一化通常会产生类似 tanh 的 S 型输入输出映射。加入 DyT 后，没有归一化的 Transformers 在大多数情况下无需调整超参数，就能达到或超过归一化对应层的性能。因此DyT是LayerNorm/RMSNorm在Transformer类模型中的平替，但是在CNN中替换BatchNorm效果下降比较多。

2025-04-02 07:50:10 229

原创 DeepSeek矩阵的逆求法

矩阵的逆可以通过多种方法计算，具体方法根据矩阵的阶数和结构有所不同。

2025-04-02 07:09:06 732

原创 DeepSeek总结常用的CoT方法（ToT、GoT）

常用的CoT（Chain-of-Thought，思维链）方法通过引导大语言模型生成中间推理步骤，显著提升了复杂任务的解决能力。

2025-04-02 05:11:26 355

原创 DeepSeek 汇总一下PRM和ORM的主要论文

PRM的核心创新在于通过逐步骤反馈优化模型推理路径，而ORM更注重最终结果的质量评估。当前研究趋势聚焦于降低PRM的标注成本（如隐式学习、自动标注）和提升ORM的稀疏信号利用效率。未来方向可能包括多模态PRM、动态奖励调整机制，以及面向工业场景的端到端优化框架。如需具体论文链接或进一步解读，可参考上述文献的原始出处。

2025-04-02 05:10:10 391

原创 DeepSeek 如何系统性的解决大模型的幻觉问题？

系统性解决幻觉需构建“数据-模型-知识-评估”的闭环：通过RAG和CoT增强事实性，动态知识库减少信息滞后，多智能体路由提升专业性，解码控制抑制语义漂移。未来需进一步探索模型自我纠错能力与跨模态证据融合，以实现更高可靠性。要系统性解决大模型的“幻觉”问题（即生成看似合理但实际错误的信息），需从数据优化、模型训练、知识管理、推理控制等多层面构建闭环解决方案。

2025-04-02 03:28:14 413

转载矩阵求导和BP中的Shape总结

如果W是m*n，x是n*1，

2025-04-02 03:25:49 26

原创 Leetcode 1094. Car Pooling 差分数组

【代码】Leetcode 1094. Car Pooling 差分数组。

2025-04-02 00:35:43 374

原创 Leetcode 1976. Number of Ways to Arrive at Destination 带重复的Dijstrala BFS等价

重复的dijstrla

2025-03-31 15:13:07 867

原创 PyTorch DDP流程和SyncBN、ShuffleBN

MoCo V1中就使用了Shuffling BN的操作。BN大部分的时候是在当前GPU上算的，使用BN的时候BN的running mean和runnning variance很容易让模型找到正确的解。Shuffling BN就是算之前先把样本顺序打乱，送到多卡上，算完再合在一起。，实际上就是把各块卡搜集到的均值和方差汇总起来。PyTorch DDP中的BN同步通过 all_gather 原语实现全局统计量聚合，既保证了多卡训练的一致性，又通过优化通信量避免了性能瓶颈。

2025-03-29 08:10:24 320

转载 GPU Utilization/SM Activity/SM Active/SM Occupancy

对应 DCGM 的 DCGM_FI_PROF_GR_ENGINE_ACTIVE，表示在一个时间间隔内 Graphics 或 Compute 引擎处于 Active 的时间占比。Active 时间比例越高，意味着 GPU 在该周期内越繁忙。该值比较低表示一定没有充分利用 GPU，比较高也不意味着已经充分利用 GPU。

2025-03-29 06:22:45 416

原创 Token压缩思路和代码赏析（ToMe： TOKEN MERGING: YOUR VIT BUT FASTER）

简单来说把一个token区别拆分成a, b = metric[…, ::2, :], metric[…, 1::2, :]这两部分，然后两部分做bipartite soft matching。n2。

2025-03-18 21:17:37 516

原创稀疏矩阵乘法非零个数的期望

n*n的稀疏矩阵，平均每行每列都有m个非0的数，n>>m。如果A和B都是上述类型矩阵，那么C=A@B ，C平均每行有多少个非0的数据？

2025-03-09 14:52:27 940

原创 Gumbel Softmax重参数和SF估计（Score Function Estimator，VAE/GAN/Policy Gradient中的重参数）

We derive the probability density function of the Gumbel-Softmax distribution with probabilities π1,…,πk\pi_1, \ldots, \pi_kπ1,…,πk and temperature τ\tauτ. We first define the logits xi=log⁡πix_i = \log \pi_ixi=logπi, and Gumbel samples g1,…,gkg_1, \ld

2025-02-19 19:03:25 807

原创 Leetcode 523. Continuous Subarray Sum Prefix 坑

【代码】Leetcode 523. Continuous Subarray Sum Prefix 坑。

2025-02-16 11:05:14 421

原创 nn.EmbeddingBag把offsets之间的进行归约，offsets从0开始

在nn.EmbeddingBag中，mean模式会对输入索引对应的嵌入向量进行平均计算。根据输入索引查找对应的嵌入向量。根据偏移量将输入索引分成多个序列。对每个序列的嵌入向量进行平均计算。输出归约后的嵌入向量。通过这种方式，可以高效地处理变长序列的嵌入操作，并进行归约计算。

2025-02-15 13:45:36 840

原创对PosWiseFFN的改进： MoE、PKM、UltraMem

如果Attention的维度是d_model，通常PosWiseFFN模型结构就是2个矩阵中间加个Gelu，d_ff是d_model的4倍：第1个矩阵的weight是[d_model, 4*d_model]，第2个矩阵的的weight是[4*d_model, d_model]。

2025-02-14 23:51:15 1188

原创 RAG入门： RetroMAE、BGE、M3、MemoRAG

Lexical Retrieval：给定一个文本，获取语言模型最后一层上所有位置的隐状态，每个位置对应原始文本中的一个token，依次将每个位置的隐状态通过一个全连接层+Relu函数得到该token的权重，将所有每个token的隐状态*对应的权重再求和作为文本的稀疏表征（如果文本包含两个以上相同的token，则该token的权重取其中最大的权重值）。很熟悉的感觉吧，很像tfidf，也跟RetroMAE-V2的第二部分特征很相似，这部分特征更在意文本中各个token的信息，重要的token就赋予更高的权重。

2025-02-13 20:44:26 827

CH09-virtual memory1

空空如也