自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 基于路由的RAG问答系统:智能分流简单、复杂与无关问题

简单问题快速响应,节省资源。复杂问题精准处理,动用多步推理。无关问题友好回应,避免检索噪声。参考资料LangChain 文档:Agents, RetrievalQA论文:ReAct: Synergizing Reasoning and Acting in Language Models本文为原创,转载请注明出处。欢迎在评论区交流讨论!

2026-04-05 20:02:41 326

原创 RAG发展史:从基础检索到智能体决策的演进之路

第一代证明了“开卷考试”的有效性。第二代解决了检索质量不高的工程痛点。第三代提供了可组装、可扩展的框架。第四代赋予了系统自主规划和反思的能力。对于开发者而言,理解RAG的演进脉络,不仅能帮助你更好地选择适合当前项目的技术方案,更能为你设计下一代智能应用提供灵感。参考资料本文为原创,转载请注明出处。

2026-04-05 15:48:28 294

原创 混合专家模型(MoE)详解:大模型效率革命的基石

你想了解的角度核心答案是什么一种通过多专家分工 + 动态路由来减少计算量的模型架构。为什么重要让大模型在保持强大能力的同时,大幅降低推理成本。怎么工作每个 token 由路由器选择 1-2 个专家处理,其他专家不参与计算。有什么挑战训练负载不均衡、通信开销大、专家知识冗余。代表模型DeepSeek-V3, Mixtral, Qwen3, GPT-4(传闻)参考资料。

2026-04-04 19:23:22 569

原创 提示词工程:大模型应用开发的核心“胶水层”

如果你和我一样,刚完成了 BERT 分类、微调、评估,熟悉了 Transformer、注意力机制,那么恭喜——你已经掌握了传统 NLP 的基石。但现在,我们要正式进入大模型应用开发的核心实战:提示词工程。之前(模型训练阶段)现在(提示词工程阶段)重心在修改代码、调整参数重心在设计输入输出、优化指令评估指标:损失、准确率、F1评估指标:任务完成度、稳定性、成本需要 GPU、大量数据、长时间训练只需 API 或本地推理,即时反馈调试:print、断点、梯度监控调试:修改提示词、A/B 测试。

2026-04-04 10:38:53 334

原创 大模型三大架构详解:Encoder-only、Decoder-only 与 Encoder-Decoder

Transformer架构主要有三种变体:Encoder-only(如BERT)擅长双向理解,适用于分类、实体识别等任务;Decoder-only(如GPT)专注自回归生成,适合对话、文本创作;Encoder-Decoder(如T5)结合两者优势,专精翻译、摘要等输入输出转换任务。选择架构时需考虑任务特性:理解任务选Encoder-only,生成任务选Decoder-only,结构化转换任务则用Encoder-Decoder。理解这些架构差异是模型选型和应用开发的关键基础。

2026-04-01 21:09:40 467

原创 模型剪枝:让神经网络“瘦身”的艺术

摘要 模型剪枝是深度学习中的重要技术,旨在通过移除冗余参数来减小模型体积、降低计算成本,同时保持精度。本文介绍了模型剪枝的必要性(如降低推理延迟、减少内存占用)、主要类型(非结构化剪枝和结构化剪枝)及其优缺点,并阐述了剪枝的经典流程、参数重要性评估方法。此外,文章探讨了剪枝与其他压缩技术(如量化、知识蒸馏)的关系,以及在大语言模型(LLM)中的应用挑战和策略。最后,提供了一个PyTorch非结构化剪枝的代码示例,并总结了剪枝的优缺点及学习建议,为模型优化与部署提供了实用指导。

2026-04-01 19:52:56 370

原创 知识蒸馏(Knowledge Distillation)完全指南:原理、实践与进阶

知识蒸馏是一种模型压缩技术,通过让轻量级"学生模型"模仿高性能"教师模型"的输出行为,在保持小体积和低延迟的同时获得接近大模型的能力。其核心在于利用教师模型输出的软标签(包含类别间相似性信息)而非传统硬标签来训练学生模型,通过温度参数T控制软标签平滑度,并结合KL散度和交叉熵损失函数。典型流程包括教师模型训练、软标签生成、学生模型训练和部署。知识蒸馏可与量化、剪枝等技术结合,实现更高压缩比,广泛应用于移动端视觉、边缘计算等领域。

2026-03-30 22:23:14 457

原创 从流程到落地:手把手解析一个完整的BERT文本分类项目

本文解析了一个基于BERT的中文文本分类项目架构,涵盖从数据准备到服务化的完整流程。项目采用模块化设计,包含模型定义、训练、预测和API服务等核心组件:1) 通过config.py集中管理参数;2) 使用bert_classifier_model.py构建BERT+线性分类头的模型;3) train.py实现训练流程;4) predict_fun.py封装预测功能;5) 通过Flask提供REST接口。项目亮点包括本地预训练模型存储、模块职责分离和工程化API设计,为开发者提供了规范的BERT应用实践范例,

2026-03-29 12:30:34 399

原创 Transformer入门知识

摘要:Transformer架构彻底改变了自然语言处理领域,解决了传统RNN存在的长距离依赖和无法并行计算问题。其核心是自注意力机制,通过查询、键、值向量计算词间相关性,并采用多头注意力增强表达能力。Transformer还包含残差连接、层归一化和前馈网络等关键组件。这种架构支持并行计算,具有全局感受野,可解释性强且易于扩展。如今BERT、GPT等主流大模型都基于Transformer,使其成为NLP领域的事实标准。初学者可通过HuggingFace等工具快速体验Transformer的强大功能。

2026-03-14 22:14:50 519 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除