Lione小小王-CSDN博客

原创【推荐系统】双塔模型

本文介绍了推荐系统的模型架构与训练方法。模型采用嵌入技术进行低维特征提取，处理连续特征时使用log变换而非归一化。训练方式包括Point-wise、Pair-wise和List-wise三种，其中Pair-wise采用margin loss函数。线上服务采用向量数据库存储物品特征，实时计算用户特征。模型更新包含全量和增量两种方式，全量更新通过数据shuffle消除时间序列偏差，而增量更新需与全量更新配合使用以避免数据分布偏移。文章通过直观解释说明了各项技术选择的原因。

2026-03-01 07:54:00 56

原创【推荐系统】正负样本的选取策略

本文讨论了推荐系统中正负样本的选择策略。正样本数量较少，负样本可视为全体物品的抽样。抽样需考虑冷门与热门物品的差异。特别指出，被精排曝光但未点击的样本仍应视为召回模型的正样本，而非负样本，因为通过精排本身就表明用户对该类物品存在潜在兴趣。文章还区分了简单负样本和困难负样本的不同特性。

2026-03-01 07:51:44 16

原创机器学习优化器优化算法大全

本文概述了机器学习中的优化问题与算法。优化问题通常是无约束的，凸函数的局部最小值即全局最小值（如线性回归），而非凸函数（如CNN、Transformer）则更复杂。介绍了多种优化算法：梯度下降（批量处理）、SGD（随机单样本）、小批量SGD（平衡效率与精度）、冲量法（平滑梯度）、Adagrad（动态学习率）、RMSProp（改进Adagrad的梯度累积）以及Adam（结合一阶和二阶矩调整梯度与学习率）。最后提到AdamW，它解耦正则项以改进Adam的权重衰退问题。这些算法通过不同方式调整梯度方向和学习率来优

2026-02-22 09:58:23 313

原创扩散模型【DDPM】

期望的那一项是forward前向过程。

2026-02-22 08:06:22 47

原创【论文精读】CLIP(constrastive language-image pre-training)(2021)

本文提出了一种基于自然语言监督的对比学习方法CLIP（Contrastive Language-Image Pre-training），通过400百万图像-文本对进行预训练，学习可迁移的视觉特征。该方法采用对比学习框架，将图像和文本编码到同一空间，判断其匹配程度。实验表明，CLIP在30个CV数据集上表现优异，支持zero-shot推理，通过prompt engineering将标签转化为句子形式，有效缓解语义歧义问题。相比传统固定标签范式，CLIP具有更强的泛化能力，可应用于多模态任务。但存在处理抽象任务

2026-01-31 07:50:30 731

原创保姆级强化学习算法汇总+详解

强化学习（RL）是一种通过试错和奖励反馈来训练智能体的方法，目标是最大化累积预期奖励。关键概念包括探索（尝试新动作）与利用（使用已知最优动作）的平衡，通常通过ε-greedy策略实现。RL任务可分为有终止状态的Episodic任务和无终止状态的Continous任务，动作空间可以是离散或连续的。核心方法包括：基于策略（Policy-based）：直接学习动作概率分布，适合连续动作空间，稳定性好但方差高（如Policy Gradient）基于价值（Value-based）：学习价值函数间接指导动作（如Q-

2026-01-31 07:44:21 460

原创大模型采样方法大全

本文介绍了三种常见的文本生成采样方法：softmax with temperature、Top-k采样和Top-P采样。softmax with temperature通过调节温度参数平衡多样性与精确性；Top-k采样固定选取概率最高的k个token；Top-P采样则动态选取累积概率达到p的token集。这些随机采样方法与确定性搜索方法（贪心/束搜索）形成对比，前者能增加生成多样性，后者则保证结果稳定性。不同采样策略适用于不同任务场景，如数学推理需要低温softmax确保精准，而创意写作可采用Top-P提升

2026-01-24 11:36:17 283

原创【论文精读】Megatron-LM（2020）

本文提出了一种针对Transformer模型的分布式计算方法，通过简单修改PyTorch代码实现张量并行，无需额外框架。该方法将MLP层权重按列拆分到不同GPU，通过allreduce操作合并梯度；Attention层则采用类似的数据切分方式。实验表明，GPU数量与层数呈线性关系，但随着GPU增加，通讯开销显著增大。与数据并行相比，该方法通讯量与模型参数规模相关，且难以扩展到多机环境。研究还发现，当GPU超过8个时，单卡内存限制和通讯瓶颈成为主要制约因素。该方法相比Gpipe等流水线并行方案具有独特优势，但

2026-01-22 12:28:29 249

原创【论文精读】MAE(Masked Auto-Encoder)(2021)

本文介绍了基于Transformer的视觉自监督学习方法MAE。该方法受NLP领域BERT启发，将掩码语言模型扩展至计算机视觉任务。核心架构包含非对称的Encoder-Decoder结构：Encoder仅处理25%未掩码图像块，大幅降低计算开销；Decoder则重建完整图像，仅计算掩码区域的MSE损失。与NLP任务不同，视觉重建通过线性插值实现更高掩码率（75%），有效捕捉全局信息。实验表明，该方法在保留ViT优势的同时，通过简化Decoder结构实现高效训练，为视觉任务提供了强大的预训练基础。

2026-01-22 12:23:45 353

原创【论文精读】BERT（2019）

句子情感识别。

2026-01-21 06:35:28 849

原创保姆级LLM大模型混合精度运算原理

摘要：FP16半精度计算存在数值下溢问题，解决方案采用混合精度训练：前向传播用FP16，计算梯度时通过Loss Scaling放大数值避免下溢，梯度更新使用FP32保证精度，最后将权重同步回FP16。该方法既保持了计算效率，又解决了小数值精度丢失问题。

2026-01-20 03:14:48 294

原创【论文精读】GPipe流水线技术详解

本文提出了一种基于流水线并行的深度学习模型并行训练方法。通过将模型按层切分成多个块分配给不同GPU，并结合微批量拆分数据来减少流水线空闲时间。关键技术包括Re-materialization（类似梯度检查点，以时间换空间）和微批量处理。实验结果表明，随着GPU数量(K)和微批量数量(M)增加，训练效率提升。时间分布分析显示，计算开销、重计算开销、层切分不均和流水线泡沫是主要时间消耗源。该方法有效结合了模型并行和数据并行的优势，为大规模模型训练提供了高效解决方案。

2026-01-20 03:14:23 192

原创 LLM不同推理方法详解

本文介绍了三种文本生成策略：贪心搜索每次选择概率最高的token，效率高但可能错过全局最优；穷举搜索枚举所有可能，保证最优但计算成本过高；束搜索(Beam Search)是折中方案，保留多个候选路径（如K=2），通过概率累乘选择最优组合，时间复杂度为O(KNT)。其中K=1时退化为贪心搜索。这些方法在计算效率和结果质量间存在权衡。

2026-01-19 06:47:32 196

原创机器学习优化器优化算法详解

本文介绍了机器学习中的优化问题及相关算法。优化问题可分为凸函数（如线性回归）和非凸函数（如CNN）两类。重点阐述了三种梯度下降算法：批量梯度下降（Batchsize=n）、随机梯度下降（Batchsize=1）和小批量随机梯度下降（Batchsize=b），分析了各自优缺点。还介绍了改进算法：冲量法（平滑梯度保持惯性）和Adam算法（结合梯度平滑与归一化处理）。这些算法为解决不同类型优化问题提供了有效方法，其中Adam算法通过梯度归一化处理实现了更优性能。

2026-01-19 06:45:43 314

原创 MoE混合专家模型VSDense稀疏模型技术详解

MoE（混合专家）模型通过稀疏架构改进传统Dense模型，用router选择top-k专家处理输入，实现参数与计算成本的解耦。实验显示增加专家数量能提升性能，但存在训练不稳定问题。改进包括细粒度专家和共享专家设计。Token分配方式分为Token choice（可能专家训练不足）和Expert choice（存在Token丢弃问题）。MoE模型通过专家分工获得任务优势，但推理时面临Token分配挑战。

2026-01-18 08:08:58 316

原创相对位置编码之RoPE旋转矩阵算法详解

本文介绍了RoPE旋转位置编码在Attention机制中的应用。数学上，旋转矩阵具有转置即逆的特性。在二维情况下，通过对q和k进行旋转实现相对位置编码。高维场景中，采用两两维度分组的方式构建旋转矩阵，不同频率的旋转能捕捉局部信息和长距离依赖。公式分析表明，旋转矩阵的稀疏性保证了计算效率。该方法巧妙地结合了相对位置编码和Attention机制的优势。

2026-01-18 08:06:30 175

原创【A Gentle Introduction to Graph Neural Networks】【论文精读】

本文介绍了图神经网络(GNN)的基本概念和应用。主要内容包括：1) 图的组成要素(顶点、边、全局图和连通性)；2) 图在图像处理、文本分析、化学分子、社交网络等领域的应用；3) GNN的基本架构，通过多层感知机处理顶点、边和全局图的特征；4) GNN的改进方法，如GCN引入聚合机制，以及边-顶点-全局信息的交互更新；5) 超参数选择和子图采样等优化技术。文章还讨论了GNN的对称性假设，并简要介绍了GCN和GAN等相关技术。

2026-01-17 02:19:39 298

原创保姆级GPT大模型原理

本文概述了大语言模型训练的三个关键阶段。预训练阶段建立基础模型能力但存在知识时效性问题；SFT微调阶段通过标注数据赋予对话能力并解决幻觉问题；强化学习阶段通过优化token计算效率提升模型表现，但存在泛化能力不足的缺陷。文章特别指出，复杂任务需要多步推理，而RLHF在可验证领域效果显著但可能产生奖励欺骗问题，在不可验证领域则缺乏有效评估指标。最后强调了保持模型原始性能与强化学习效果平衡的重要性。

2026-01-17 02:11:52 277

原创 KVCache技术详解【Attention机制】

VLLM通过Page Attention机制优化LLM推理中的显存利用问题。它将KV cache划分为类似操作系统内存页的block单元，通过虚拟地址映射解决内存碎片问题。同时采用共享KV cache机制，对相同prompt的不同请求复用内存空间，通过copy-on-write避免重复存储。此外还支持beam search等推理模式，显著提升大模型推理效率。这些创新使VLLM能更高效地利用GPU显存资源，降低计算成本。

2026-01-15 00:23:00 153

原创 RAG检索增强技术详解

网站客服系统搭建流程：基于ChatGPT/DeepSeek等大模型，采用RAG技术实现智能问答。核心步骤包括：1）文本分片（按语义/HTML标签切割）；2）建立向量索引（通过Embedding模型转换文本）；3）召回相关数据；4）结果重排优化。系统需定期更新数据并监控检索准确率，通过语义检索而非全量数据传输提升效率。重排与召回采用不同方法协同工作，确保回答质量。

2026-01-15 00:22:38 158

原创【全网最全】大模型的分词化Tokenization

子词级编码技术解析与应用摘要本文系统分析了子词级编码技术在自然语言处理中的应用特点。主要内容包括：1）子词编码特性：不同语言token数量差异显著，代码缩进处理方式影响上下文窗口利用率；2）BPE算法原理：训练超参数设置、编码解码限制及多语言处理注意事项；3）GPT系列改进：GPT4优化了空格合并和词表扩展；4）特殊token处理机制及其对模型行为的影响；5）Tiktokenizer与Wordsentence工具对比；6）实践建议：针对字符级任务、数学运算和多语言处理的优化策略。研究揭示了分词技术对模型性

2026-01-13 00:51:20 750

2302_78417067的博客