自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 【推荐系统】双塔模型

本文介绍了推荐系统的模型架构与训练方法。模型采用嵌入技术进行低维特征提取,处理连续特征时使用log变换而非归一化。训练方式包括Point-wise、Pair-wise和List-wise三种,其中Pair-wise采用margin loss函数。线上服务采用向量数据库存储物品特征,实时计算用户特征。模型更新包含全量和增量两种方式,全量更新通过数据shuffle消除时间序列偏差,而增量更新需与全量更新配合使用以避免数据分布偏移。文章通过直观解释说明了各项技术选择的原因。

2026-03-01 07:54:00 56

原创 【推荐系统】正负样本的选取策略

本文讨论了推荐系统中正负样本的选择策略。正样本数量较少,负样本可视为全体物品的抽样。抽样需考虑冷门与热门物品的差异。特别指出,被精排曝光但未点击的样本仍应视为召回模型的正样本,而非负样本,因为通过精排本身就表明用户对该类物品存在潜在兴趣。文章还区分了简单负样本和困难负样本的不同特性。

2026-03-01 07:51:44 16

原创 机器学习优化器优化算法大全

本文概述了机器学习中的优化问题与算法。优化问题通常是无约束的,凸函数的局部最小值即全局最小值(如线性回归),而非凸函数(如CNN、Transformer)则更复杂。介绍了多种优化算法:梯度下降(批量处理)、SGD(随机单样本)、小批量SGD(平衡效率与精度)、冲量法(平滑梯度)、Adagrad(动态学习率)、RMSProp(改进Adagrad的梯度累积)以及Adam(结合一阶和二阶矩调整梯度与学习率)。最后提到AdamW,它解耦正则项以改进Adam的权重衰退问题。这些算法通过不同方式调整梯度方向和学习率来优

2026-02-22 09:58:23 313

原创 扩散模型【DDPM】

期望的那一项是forward前向过程。

2026-02-22 08:06:22 47

原创 【论文精读】CLIP(constrastive language-image pre-training)(2021)

本文提出了一种基于自然语言监督的对比学习方法CLIP(Contrastive Language-Image Pre-training),通过400百万图像-文本对进行预训练,学习可迁移的视觉特征。该方法采用对比学习框架,将图像和文本编码到同一空间,判断其匹配程度。实验表明,CLIP在30个CV数据集上表现优异,支持zero-shot推理,通过prompt engineering将标签转化为句子形式,有效缓解语义歧义问题。相比传统固定标签范式,CLIP具有更强的泛化能力,可应用于多模态任务。但存在处理抽象任务

2026-01-31 07:50:30 731

原创 保姆级强化学习算法汇总+详解

强化学习(RL)是一种通过试错和奖励反馈来训练智能体的方法,目标是最大化累积预期奖励。关键概念包括探索(尝试新动作)与利用(使用已知最优动作)的平衡,通常通过ε-greedy策略实现。RL任务可分为有终止状态的Episodic任务和无终止状态的Continous任务,动作空间可以是离散或连续的。核心方法包括: 基于策略(Policy-based):直接学习动作概率分布,适合连续动作空间,稳定性好但方差高(如Policy Gradient) 基于价值(Value-based):学习价值函数间接指导动作(如Q-

2026-01-31 07:44:21 460

原创 大模型采样方法大全

本文介绍了三种常见的文本生成采样方法:softmax with temperature、Top-k采样和Top-P采样。softmax with temperature通过调节温度参数平衡多样性与精确性;Top-k采样固定选取概率最高的k个token;Top-P采样则动态选取累积概率达到p的token集。这些随机采样方法与确定性搜索方法(贪心/束搜索)形成对比,前者能增加生成多样性,后者则保证结果稳定性。不同采样策略适用于不同任务场景,如数学推理需要低温softmax确保精准,而创意写作可采用Top-P提升

2026-01-24 11:36:17 283

原创 【论文精读】Megatron-LM(2020)

本文提出了一种针对Transformer模型的分布式计算方法,通过简单修改PyTorch代码实现张量并行,无需额外框架。该方法将MLP层权重按列拆分到不同GPU,通过allreduce操作合并梯度;Attention层则采用类似的数据切分方式。实验表明,GPU数量与层数呈线性关系,但随着GPU增加,通讯开销显著增大。与数据并行相比,该方法通讯量与模型参数规模相关,且难以扩展到多机环境。研究还发现,当GPU超过8个时,单卡内存限制和通讯瓶颈成为主要制约因素。该方法相比Gpipe等流水线并行方案具有独特优势,但

2026-01-22 12:28:29 249

原创 【论文精读】MAE(Masked Auto-Encoder)(2021)

本文介绍了基于Transformer的视觉自监督学习方法MAE。该方法受NLP领域BERT启发,将掩码语言模型扩展至计算机视觉任务。核心架构包含非对称的Encoder-Decoder结构:Encoder仅处理25%未掩码图像块,大幅降低计算开销;Decoder则重建完整图像,仅计算掩码区域的MSE损失。与NLP任务不同,视觉重建通过线性插值实现更高掩码率(75%),有效捕捉全局信息。实验表明,该方法在保留ViT优势的同时,通过简化Decoder结构实现高效训练,为视觉任务提供了强大的预训练基础。

2026-01-22 12:23:45 353

原创 【论文精读】BERT(2019)

句子情感识别。

2026-01-21 06:35:28 849

原创 保姆级LLM大模型混合精度运算原理

摘要:FP16半精度计算存在数值下溢问题,解决方案采用混合精度训练:前向传播用FP16,计算梯度时通过Loss Scaling放大数值避免下溢,梯度更新使用FP32保证精度,最后将权重同步回FP16。该方法既保持了计算效率,又解决了小数值精度丢失问题。

2026-01-20 03:14:48 294

原创 【论文精读】GPipe流水线技术详解

本文提出了一种基于流水线并行的深度学习模型并行训练方法。通过将模型按层切分成多个块分配给不同GPU,并结合微批量拆分数据来减少流水线空闲时间。关键技术包括Re-materialization(类似梯度检查点,以时间换空间)和微批量处理。实验结果表明,随着GPU数量(K)和微批量数量(M)增加,训练效率提升。时间分布分析显示,计算开销、重计算开销、层切分不均和流水线泡沫是主要时间消耗源。该方法有效结合了模型并行和数据并行的优势,为大规模模型训练提供了高效解决方案。

2026-01-20 03:14:23 192

原创 LLM不同推理方法详解

本文介绍了三种文本生成策略:贪心搜索每次选择概率最高的token,效率高但可能错过全局最优;穷举搜索枚举所有可能,保证最优但计算成本过高;束搜索(Beam Search)是折中方案,保留多个候选路径(如K=2),通过概率累乘选择最优组合,时间复杂度为O(KNT)。其中K=1时退化为贪心搜索。这些方法在计算效率和结果质量间存在权衡。

2026-01-19 06:47:32 196

原创 机器学习优化器优化算法详解

本文介绍了机器学习中的优化问题及相关算法。优化问题可分为凸函数(如线性回归)和非凸函数(如CNN)两类。重点阐述了三种梯度下降算法:批量梯度下降(Batchsize=n)、随机梯度下降(Batchsize=1)和小批量随机梯度下降(Batchsize=b),分析了各自优缺点。还介绍了改进算法:冲量法(平滑梯度保持惯性)和Adam算法(结合梯度平滑与归一化处理)。这些算法为解决不同类型优化问题提供了有效方法,其中Adam算法通过梯度归一化处理实现了更优性能。

2026-01-19 06:45:43 314

原创 MoE混合专家模型VSDense稀疏模型技术详解

MoE(混合专家)模型通过稀疏架构改进传统Dense模型,用router选择top-k专家处理输入,实现参数与计算成本的解耦。实验显示增加专家数量能提升性能,但存在训练不稳定问题。改进包括细粒度专家和共享专家设计。Token分配方式分为Token choice(可能专家训练不足)和Expert choice(存在Token丢弃问题)。MoE模型通过专家分工获得任务优势,但推理时面临Token分配挑战。

2026-01-18 08:08:58 316

原创 相对位置编码之RoPE旋转矩阵算法详解

本文介绍了RoPE旋转位置编码在Attention机制中的应用。数学上,旋转矩阵具有转置即逆的特性。在二维情况下,通过对q和k进行旋转实现相对位置编码。高维场景中,采用两两维度分组的方式构建旋转矩阵,不同频率的旋转能捕捉局部信息和长距离依赖。公式分析表明,旋转矩阵的稀疏性保证了计算效率。该方法巧妙地结合了相对位置编码和Attention机制的优势。

2026-01-18 08:06:30 175

原创 【A Gentle Introduction to Graph Neural Networks】【论文精读】

本文介绍了图神经网络(GNN)的基本概念和应用。主要内容包括:1) 图的组成要素(顶点、边、全局图和连通性);2) 图在图像处理、文本分析、化学分子、社交网络等领域的应用;3) GNN的基本架构,通过多层感知机处理顶点、边和全局图的特征;4) GNN的改进方法,如GCN引入聚合机制,以及边-顶点-全局信息的交互更新;5) 超参数选择和子图采样等优化技术。文章还讨论了GNN的对称性假设,并简要介绍了GCN和GAN等相关技术。

2026-01-17 02:19:39 298

原创 保姆级GPT大模型原理

本文概述了大语言模型训练的三个关键阶段。预训练阶段建立基础模型能力但存在知识时效性问题;SFT微调阶段通过标注数据赋予对话能力并解决幻觉问题;强化学习阶段通过优化token计算效率提升模型表现,但存在泛化能力不足的缺陷。文章特别指出,复杂任务需要多步推理,而RLHF在可验证领域效果显著但可能产生奖励欺骗问题,在不可验证领域则缺乏有效评估指标。最后强调了保持模型原始性能与强化学习效果平衡的重要性。

2026-01-17 02:11:52 277

原创 KVCache技术详解【Attention机制】

VLLM通过Page Attention机制优化LLM推理中的显存利用问题。它将KV cache划分为类似操作系统内存页的block单元,通过虚拟地址映射解决内存碎片问题。同时采用共享KV cache机制,对相同prompt的不同请求复用内存空间,通过copy-on-write避免重复存储。此外还支持beam search等推理模式,显著提升大模型推理效率。这些创新使VLLM能更高效地利用GPU显存资源,降低计算成本。

2026-01-15 00:23:00 153

原创 RAG检索增强技术详解

网站客服系统搭建流程:基于ChatGPT/DeepSeek等大模型,采用RAG技术实现智能问答。核心步骤包括:1)文本分片(按语义/HTML标签切割);2)建立向量索引(通过Embedding模型转换文本);3)召回相关数据;4)结果重排优化。系统需定期更新数据并监控检索准确率,通过语义检索而非全量数据传输提升效率。重排与召回采用不同方法协同工作,确保回答质量。

2026-01-15 00:22:38 158

原创 【全网最全】大模型的分词化Tokenization

子词级编码技术解析与应用摘要 本文系统分析了子词级编码技术在自然语言处理中的应用特点。主要内容包括:1)子词编码特性:不同语言token数量差异显著,代码缩进处理方式影响上下文窗口利用率;2)BPE算法原理:训练超参数设置、编码解码限制及多语言处理注意事项;3)GPT系列改进:GPT4优化了空格合并和词表扩展;4)特殊token处理机制及其对模型行为的影响;5)Tiktokenizer与Wordsentence工具对比;6)实践建议:针对字符级任务、数学运算和多语言处理的优化策略。研究揭示了分词技术对模型性

2026-01-13 00:51:20 750

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除