大模型微调实战-CSDN博客

原创中学生就能看懂：从零开始理解LLM内部原理【八】｜什么是残差连接？

前两篇中分别讲解了（Self-Attention）和，它们是大语言模型（LLM）中核心的计算模块。自注意力帮助模型从输入序列中自主学习哪些位置更相关，Softmax 将注意力分数转化为概率分布，为后续计算提供权重。今天我们来介绍在深层神经网络训练中的一个关键主角传统做法是：每个模块处理完信息后，将输出交给下一个模块，就像流水线那样。**：**你以为层数越多模型越强，但有时反而精度下降，训练更难：训练信号（梯度）难以顺利传播回前层，学习速度慢甚至失败。

2025-05-16 14:55:54 840

原创 OpenAI 重磅更新！GPT-4.1 三大能力碾压前代模型？

昨天深夜，OpenAI 官宣：GPT-4.1 正式上线 ChatGPT！消息一出，圈内立刻炸了锅。不少开发者和AI爱好者连夜冲上平台体验这款“为编程而生”的新模型。很多人第一时间就发问：今天这篇文章，就带你完整、透彻、客观地了解 GPT-4.1 到底强在哪，哪些场景适合用它，值不值得你切换过去。一、GPT-4.1 是什么？不是新瓶装旧酒，而是一次实打实的「功能重构」虽然名字听上去像是 GPT-4 的小升级，但 GPT-4.1 其实是一个为执行指令和编程任务优化的专业版本模型。它最早是在 API 端以“GPT

2025-05-16 11:37:33 869

原创从零开始学 Dify- 工作流(Workflow)系统架构

工作流系统（Workflow System）是 Dify 的核心组件，它支持通过可视化编程界面创建复杂的 AI 应用程序。它允许用户通过将不同的功能块连接在一起来设计工作流，以处理数据、与 AI 模型交互、管理条件并执行各种操作。本文将详细分析工作流系统的架构、组件和功能，重点介绍了前端编辑器和后端执行引擎。工作流系统在构建时明确区分了前端和后端组件：工作流编辑器是一个可视化画布，用户可以在其中创建和编辑工作流。它基于 ReactFlow 构建，ReactFlow 是一个用于构建基于节点的编辑器和交互式图表

2025-05-15 11:36:22 794

原创使用RAG技术构建企业级文档问答系统之基础流程

本文是本系列（使用RAG技术构建企业级文档问答系统）的第二篇，将介绍检索增强生成（Retrieval Augmented Generation，简称RAG）最基础流程。所谓检索增强生成，是大语言模型兴起之后发展迅速的一个应用领域，简单说就是，这项技术，可以根据用户输入的问题，从文档（如PDF、Word、PPT、TXT、网页等）中自动检索跟问题相关的文本片段（或称为知识片段、上下文），然后将一段指令、用户输入的问题、文本片段拼装成一个Prompt（也就是大语言模型的输入），让大语言模型生成一个回答。

2025-05-14 11:14:25 891

原创 AI Agents入门教程之不同的开源智能体框架

我们确实需要参考社区的实际案例来评估框架的表现，但最流行的框架未必总是最优选。大家常听说的有 CrewAI 和 AutoGen。

2025-05-14 11:10:30 1149

原创深度解析：如何计算 Transformer 模型的参数量

Transformer 模型的总参数量等于嵌入层参数量 + 编码器部分参数量 + 解码器部分参数量 + 输出层参数量。通过上述详细的计算步骤，我们可以较为准确地计算出 Transformer 模型的参数量，这有助于我们在实际应用中根据需求来调整模型规模，以平衡模型性能和计算资源消耗。例如，在资源有限的设备上，我们可以减小模型的参数量，如减少编码器或解码器的层级数，或者降低 d_model 和 d_ff 的维度等，来适应设备的计算能力。

2025-05-13 10:00:00 661

原创医疗大模型Agent综述：我们离私人健康助理Baymax大白还有多远？

大型语言模型（LLMs）通过开发能够理解、推理并协助医疗任务的大型语言模型代理，正在转变医疗保健领域。本综述全面回顾了医学领域基于大型语言模型的代理，考察了其架构、应用和挑战。我们分析了医疗代理系统的关键组成部分，包括系统概况、临床规划机制、医疗推理框架以及外部能力提升。调查涵盖了主要应用场景，如临床决策支持、医疗文档、培训模拟以及医疗服务优化。我们讨论了评估框架和指标，用以评估这些代理在医疗保健环境中的表现。

2025-05-12 11:30:00 925

原创牛叉！AI 大模型又起飞了！

2025年，AI大模型不仅在，也在等待程序员们的，现在会用MCP都已经不是新鲜事了，更何况**曾经热门的开发框架、大数据工具等，已不再是就业的金钥匙。**制造、医疗、金融等各行业都在加速AI应用落地，未来企业更看重能用AI大模型技术重构业务流的人才。最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但，有3-5年经验，大厂薪资就能给到！风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握，“顺风”翻盘！快速链接产品/业务团队，构建技术壁垒，避开35岁裁员危险期，顺利迭代技术水平，延长。

2025-05-12 08:30:00 548

原创深入解读MCP协议最新版本的4大升级【下】：批处理与增强的工具注解

本篇接着为大家解读MCP协议最新修订版本（2025-03-26）的四个较大升级的后两项JSON-RPC 2.0规范本身支持批量（Batch）模式，允许一次性发送一个包含多个请求对象的数组，服务器随后可以返回一个数组，其中包含对应的多个响应。MCP的新版本规范也明确了这一批处理功能，它允许客户端在单一操作中发送多个请求或通知，这与JSON-RPC 2.0标准保持一致。当前版本中，每个MCP的请求必须单独发送至对端。

2025-05-10 12:30:00 668

原创深入解读MCP协议最新版本的4大升级【上】：传输机制与安全授权

用户所使用的网络浏览器，用于实现交互式授权。

2025-05-10 08:00:00 555

原创学术界重磅！RAG+Reasoning深度协同，解锁下一代RAG

通过推理增强检索的准确性和灵活性；通过使用丰富的上下文检索知识来加强复杂的推理主要分为两种：预定义工作流，它使用具有预设协调规则的逻辑架构；动态工作流，依赖于通过实时决策引擎进行的上下文感知的自适应协调。协同方案，分为推理过程和推理优化两部分。

2025-05-09 11:35:31 686

原创 Nature Cancer | 基于多模态数据和可解释人工智能解码泛癌治疗结果

尽管现代医疗保健中每位患者都有大量的多模态临床数据，但个性化医疗的目标尚未实现。单个标志物的研究无法充分揭示决定患者预后的患者特异性和肿瘤特异性变量之间的复杂相互作用。一种有前景的策略是整合来自多个来源的临床数据，例如病史、实验室检测结果、影像数据和组学分析。机器学习的进步以及可数字化获取的数据日益增多，使得大规模建模预后标志物之间的复杂关系成为可能。最近用于理解此类模型决策的方法，即所谓的可解释人工智能（xAI），使得评估个体患者的预后并揭示每个变量的贡献成为可能。

2025-05-09 11:28:14 784

原创 Meta AI 开源全新原生多模态 Llama4！公开训练策略

Llama团队发布了系列中的首批模型，这些模型将使人们能够构建更个性化的多模态体验。，一个拥有 170 亿活跃参数和 16 个专家的模型，是同类中全球最佳的多模态模型，比前几代Llama模型更强大（），且能适配单个H100 GPU。此外，Llama 4 Scout 提供业界领先的 1000 万 token （大致相当于 500 万个字）上下文窗口，在基准测试中表现优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。

2025-05-08 11:46:45 958

原创 Qwen3 发布，第一时间详解：性能、突破、训练方法、版本迭代...

今天凌晨，Qwen3发布介于 DeepSeek 和 OpenAI 暂无动静，Qwen 算是把头条保住了，恭喜～，和。

2025-05-08 11:45:58 1064

原创 Agent 生态爆发前夜：一文读懂《AI Agent Protocols》(含 7 大类型+未来趋势)

首先快速过一下基础概念。LLM Agent 不仅仅是能生成文本的大模型，它们更像是能自主决策、有记忆、会规划、还能调用外部工具（比如 API、数据库）来完成任务的智能系统。

2025-05-06 13:43:48 1656

原创你真的了解大模型怎么“调”？四种主流LLM微调方法详解！

智能体AI.1、大模型只有结合业务才有意义，做出有价值的应用才是王道。2、对于AI你需要及时更新自己的认知，你不仅要知道What，还要Know-How，还要Do It，帮大模型产品找到合理的价值主张。提供企业级大模型解决方案咨询服务。如果你是一个开发者，手里有一个强大的语言模型（LLM），想用它来做点厉害的事情，比如文本分类、智能问答，或者识别文本里的关键信息。可问题来了：训练这么一个庞然大物需要海量的计算资源和时间，你手头的电脑可能累到冒烟，甚至还有数据不够多导致模型“学歪”的风险。别慌，今天我们就来聊聊

2025-05-06 11:26:19 934

原创深夜突袭，阿里Qwen3登顶全球开源王座！暴击DeepSeek-R1，2小时狂揽17k星

就在今天凌晨，备受全球期待的阿里新一代通义千问模型Qwen3开源！一经问世，它立刻登顶全球最强开源模型王座。它的参数量仅为DeepSeek-R1的1/3，但成本大幅下降，性能全面超越R1、OpenAI-o1等全球顶尖模型。Qwen3是国内首个「混合推理模型」，「快思考」与「慢思考」集成进同一个模型，对简单需求可低算力「秒回」答案，对复杂问题可多步骤「深度思考」，大大节省算力消耗。它采用混合专家（MoE）架构，总参数量235B，激活仅需22B。

2025-04-30 17:32:58 724

原创大模型应用开发入门：手把手用VSCode跑通第一个LangChain程序

我们在以前学习任何语言第一个入门小demo都是写一个Hell World！，同样我们在学习LangChain框架的时候，也以类似输出一个“Hell World！”的简单回复作为我们的入门demo案例在正式开始LangChain的实战学习前，需要配置一下环境。LangChain框架目前支持Python和TypeScript两种语言，这里我们选用处理人工智能更主流的Python语言来进行学习，有关JavaScript LangChain库的文档，可以点击这里。

2025-04-28 11:58:07 1082

原创费曼学习法解读大模型微调：零基础也能轻松入门（附图解+代码）

人物组（1）：老师、学生。人物组（2）爸爸、妈妈、我，妹妹。任务一：妈妈监管我的学习，我学习理科，我主要就是寻找窍门，提升解题的技巧和方法，想在考试中获得高分，这样妈妈就会多给我零花钱。任务二：爸爸监管妹妹的学习，妹妹学习文科。妹妹主要就是背，就是把书本上学到的知识都背下来，通过记忆内容来学习。

2025-04-28 11:56:18 955

原创 Local Deep Researcher：本地化部署的AI研究助手，零门槛开启智能研究

Local Deep Researcher 是一款完全本地化运行的网络研究助手，依托Ollama所托管的各类大语言模型开展工作。它的核心设计理念是 “隐私与效率并重”，旨在帮助用户高效地进行深度研究。当用户输入一个研究主题后，Local Deep Researcher会自动生成网络搜索查询，并通过配置的搜索引擎（如默认的 Tavily，也支持 DuckDuckGo、Perplexity 等）收集相关的网络搜索结果。

2025-04-27 11:42:02 946

原创 Agent-S架构深度解析：低代码+多模态如何重塑下一代智能体？

Agent-S 是一个聚焦于通过自然语言控制计算机操作的开源智能代理框架。它巧妙融合多模态大语言模型（MLLM）的强大能力与图形用户界面（GUI）操作，使其能够像人类一样娴熟地完成复杂计算机任务。Agent-S 的核心愿景是攻克传统自动化工具在灵活性与适应性上的短板，为用户打造一种全新的、直观的人机交互模式，从而在提升工作效率、优化操作体验等方面发挥重要作用。

2025-04-27 11:30:08 670

原创实测百度文心快码，国产 AI 代码编辑器离 Cursor 平替还有多远？

简单来说，文心快码是百度基于其强大的。

2025-04-18 11:15:10 1190

原创 OpenAI 最强推理模型 o3 来袭！图像深度思考、最强氛围编程

4月17日凌晨，OpenAI 发布了 o 系列里能力最强的推理模型—— o3 和 o4-mini。此次，奥特曼表示，o3 和 o4-mini 功能非常强大，尤其擅长多模态理解，并且可以组合使用 ChatGPT 中的所有工具。另外，o4-mini 的价格非常划算。OpenAI 在这个关键节点推出 o3 系列，不止是一次模型升级，更像是一种范式上的声明，也是一种技术坐标系的重新标定。GPT-4.5 虽然更强大，但速度较慢且计算密集，因此 GPT-4.1 为开发者提供了一种更快、更经济的选项。

2025-04-18 11:14:11 814

原创 RAG范式的几种花式变体及技术特性：GraphRAG? 多模态RAG or Deepresearch？

注意，这个用到的大模型是多模态模型；

2025-04-18 11:08:22 601

原创一文搞懂大模型开发平台Dify

简化和加速生成式AI应用的创建和部署，

2025-04-18 11:04:16 1541

原创从思考到行动：大模型自主工具调用能力的深度实现

我们探索了结合大模型的深度思考能力提升大模型自主工具调用的能力的两种方式，包括让大模型边思考边行动、以及让大模型提出调用工具的需求。我们发现，通过强化学习的训练方式，

2025-04-17 11:54:45 685

原创天津大学｜1-2合集来啦，92页PPT合集“实事求是”，DeepSeek原理、部署、使用、安全详细解读！

深度解读DeepSeek：部署、使用、安全》（第二篇）是由天津大学自然语言处理实验室团队联合伏羲传语（OpenEval）共同编写的技术文档，聚焦DeepSeek大模型的全流程应用与安全保障。本报告系统解析了模型部署、高效使用及安全防护的核心要点，并融合智慧政务、医疗、教育等场景的实战案例，为开发者与行业用户提供一站式技术指南。

2025-04-15 13:47:27 918

原创基于深度强化学习的LOB做市策略研究

本文深入探讨了如何利用深度强化学习（DRL）技术，从限价订单簿（LOB）数据中提取特征，以构建一个高效、适应性强的市场做市（MM）智能体。是量化金融领域一个至关重要的问题。市场做市商通过在买卖双方同时报出限价订单，为市场提供流动性和即时性，从而在价格发现过程中发挥关键作用。是当今金融市场中超过一半的市场采用的交易机制。LOB 记录了所有活跃的限价订单信息，是价格发现的重要信息来源。研究表明，LOB 对价格发现的贡献约为 22%。

2025-04-15 11:55:51 980

原创 AI时代，一文彻底搞懂天天被提到的Agent是什么？

AI Agent（智能体）是能够感知环境、自主决策并执行动作的智能实体，它代表了AI从"被动回答"到"主动行动"的进化，正在成为大模型时代最受关注的应用形态之一。AI Agent（人工智能代理）是一种能够并的智能实体。与传统AI系统不同，Agent不仅能回答问题，还能主动完成一系列复杂任务。简单来说，如果把大语言模型LLM）比作一个"超级大脑"，那么AI Agent就是给这个大脑装上了"手脚"和"工具"，让它能够像人类一样主动行动，而不仅仅是被动回答问题。举个例子，如果你对ChatGPT。

2025-04-12 11:56:35 1319

原创《DeepSeek知识库》最新手册发布，持续更新！

今年，国产大模型 DeepSeek 火爆全球！无论是科技大厂的技术分享，还是创业团队的创新应用，DeepSeek 都成为了高频关键词。它凭借强大的功能和易用性，正在改变我们处理信息、解决问题的方式。前段时间Manus智能体也引起社区注意，相信很多人都对此感兴趣，在这里给大家讲解下Manus的整体工作流程，大概如下：输入 → 理解 → 知识检索 → 推理 → 规划 → 执行 → 反馈 → 学习 → (循环)

2025-04-12 11:08:14 1052

原创 ChatGPT有了完整记忆！像朋友一样记住所有聊天记录，回复更加私人订制

ChatGPT可以引用了！刚刚，OpenAI发布ChatGPT新能力，支持参考过去所有对话内容，更好根据个人喜好来生成回复。，时长00:26除了保存此前记忆，还能引用过去内容。这意味着ChatGPT从此能，也将过去的聊天记录“升级为”知识库，可以直接从中查询引用。总之就是提供更加私人订制的体验。OpenAI推理领域大佬Noam Brown就表示，这不只是一个产品新功能，偶发性的互动→持续性互动转变，类似于AI从问答客服向朋友同事转变。有人表示，这很有趣啊！AI的记忆将如何发展呢？

2025-04-11 11:56:03 815

原创通用Agent大赛脑洞炸裂！创新应用大赏~

虽然很多应用目前还处于早期探索阶段，但这些令人眼前一亮的案例，足以让我们窥见一个由 Agent 深度参与和赋能的未来。而且这背后反映的不仅仅是技术的进步，更像是。

2025-04-11 11:55:20 610

原创一文学会基于LangChain开发大模型RAG知识问答应用

RAG全称是Retrieval-Augmented Generation，即检索增强生成。通俗来讲,就是在用户提的问题的基础上，引入相关资料信息，把“问题+相关资料” 一起给大模型，让大模型在参考资料的约束或提示下回答问题而不是随意发挥，从而期望大模型生成质量更高、更准确的答案，改善大模型”幻觉“、训练数据过时、知识范围有限等带来的负面问题。在涉及到专业领域知识或企业内部知识的应用场景中，这项技术发挥着重要作用。相比于，RAG时间成本、经济成本和技术难度都更低。

2025-04-10 11:04:29 1738

原创保姆级教程~本地微调DeepSeek-R1-8b模型

利用特定领域的数据集对已预训练的大模型进行进一步训练的过程。它旨在优化模型在特定任务上的性能，使模型能够更好地适应和完成特定领域的任务。其中最重要的是超参数（如学习率、批次大小和训练轮次）调整优化。转成大白话就是调整大模型中一些参数的值，使其在特定数据集上表现更优秀。

2025-04-10 11:02:50 882

原创一文搞懂混合专家（MoE）模型

*“路由器”则负责根据输入智能地选择最合适的专家进行处理****，并将选定专家的输出作为最终输出。***一、******专家（Expert）*************混合专家（**MoE**）模型的专家（Expert）是什么？********如何将密集****模型（D**ense**）转换为混合专家（****MoE）模型？这个*******二、路由器（Router）***************混合专家（MoE）模型的路由器（Router）是什么？**********

2025-04-09 11:25:49 610

原创大模型Agent | 构建AI-Agent的 5大挑战，及解决方案！

构建强制执行这些规范的验证逻辑，并从一小组定义明确的工具开始，而不是许多定义松散的工具。定期监控来查看哪些工具最有效以及哪些定义需要改进。

2025-04-09 11:24:49 926

原创知识图谱+知识库RAG项目Yuxi-Know及大模型推理内部可视化工具OpenMAV实现拆解

关于可解释，其实是大模型的一个很有趣的话题，我们已经讲过多次了，例如，《注意，“电路”（Circuit）并不是传统意义上的电子电路，而是指一种计算图（computational graph），用于描述语言模型内部的计算过程和特征之间的相互作用。这种“电路”概念是类比于神经科学中的“神经回路”（neural circuits），用于揭示模型内部的信息处理机制。然后呢，这块其实有出来一些新的可视化工具，都是同质化的，。此外，我们再来拆解一个项目，。抓住根本问题，做根因，专题化，体系化，会有更多深度思考。

2025-04-08 20:53:31 1358

原创拆解：Meta Llama4 的 MoE 架构如何吊打传统 Dense 模型？

Llama 4 系列目前推出了 Scout 和 Maverick 两个版本，它们在架构设计上各具特色，但都围绕着 MoE 架构展开。

2025-04-08 20:48:29 625

原创大模型｜OpenAI完成400亿美元创纪录融资

谷歌宣布由实验室副总裁Josh Woodward接替Sissie Hsiao担任Gemini应用负责人，原负责人将暂休后转任新职。Hsiao在任期间主导推出了对标ChatGPT的Bard产品，此次人事调整旨在强化Gemini的战略推进。Woodward作为AI笔记应用NotebookLM的开发者，其"AI主持人"播客功能已整合至Gemini的Deep Research服务中。此次管理层变动正值谷歌将NotebookLM纳入One AI Premium订阅体系之际，反映其加速整合AI产品线的战略意图。

2025-04-07 11:46:50 827

原创最强Agent框架开源！智能体设计路在何方？

随着AI智能体的逐渐变强，在张小珺商业访谈录的Q1季报中，很笃定，AGI的实现可能会在未来2年内，也就是26年底，27年初。所以应对这种技术的快速发展，我们可能需要快速接受的一种范式改变。过去，人类需要学习如何使用计算机界面；而在智能体时代，计算机需要学习如何理解人类意图。同时，这种转变改变了人才需求的本质——从执行具体任务的能力，转向定义问题和指导智能体的能力。好了，这就是我今天想分享的内容。

2025-04-07 11:46:09 758

空空如也

空空如也