董厂长-CSDN博客

原创温度设为 0 仍然不完全确定：LLM 推理非确定性从哪来、怎么测、如何缓解

摘要大型语言模型（LLM）中设置temperature=0并不能保证完全确定的输出结果。本文分析了三个层面的原因：1)解码策略层，温度=0等价于贪婪解码，但仍存在上游微小差异；2)数值与并行层，浮点运算和并行处理可能导致logits的微小变化；3)服务化与工程层，批处理和调度机制会影响输出一致性。主要发现包括：云端服务商明确表示不保证完全确定性；PyTorch、cuDNN等框架因性能优化存在固有非确定性；贪婪解码可能降低文本质量。文章最后提供了提高一致性的实用建议清单，强调温度=0只能减少而非消除随机性，

2025-12-26 17:37:50 1003

原创效率陷阱：当裁员被指标化，人就变成了数字

这篇文章不是反对“数据”和“效率”。它反对的是：把容易量化的指标误当成真实价值，并在裁员浪潮里用这些指标做不可逆的人事决定。希望指出现象并都带来思考。源podcast：https://www.youtube.com/watch?v=QBznUHAopxU

2025-12-16 22:50:48 918

原创综述：deepSeek-OCR，paddle-OCR，VLM

本文对比了DeepSeek-OCR与PaddleOCR两种OCR技术路径。DeepSeek-OCR作为多模态视觉语言模型，采用创新的"视觉压缩"机制，通过自适应分辨率编码和端到端统一处理，将大量视觉token压缩90%以上，显著提升长文档处理效率。而PaddleOCR采用传统"检测-识别"两阶段方案，在复杂版面还原上更具优势。测试显示，DeepSeek-OCR参数更少(22M vs 0.9B)、处理速度更快，适合长文档和实时场景；PaddleOCR则在复杂表格和特殊字

2025-10-28 23:05:48 1428

原创阅读：REACT: SYNERGIZING REASONING AND ACTING INLANGUAGE MODELS(在语言模型中协同推理与行动)

摘要：本文提出ReAct方法，通过将大型语言模型（LLMs）的推理能力与行动能力相结合，实现更高效的任务解决。ReAct允许模型以交错方式生成推理轨迹和具体行动，其中推理指导行动决策，行动则提供外部信息反馈。实验表明，在问答（HotpotQA）、事实验证（Fever）及决策任务（ALFWorld、WebShop）中，ReAct显著优于仅推理或仅行动的基线方法，提高准确率的同时增强了可解释性。该方法通过动态推理和外部交互有效缓解了纯推理中的幻觉问题，为构建更接近人类认知模式的AI系统提供了新思路。

2025-10-16 17:30:08 844

原创阅读：《Agent AI: Surveying the Horizons of Multimodal Interaction》5.1 - 5.6

本文系统梳理了AgentAI的分类体系，主要涵盖五大类智能体：通才智能体（Generalist Agents）强调多任务泛化能力和多模态交互；具身智能体（Embodied Agents）注重物理世界交互，包括行动智能体和交互智能体两个子类；模拟与环境智能体通过虚拟训练场加速学习；生成式智能体利用大模型创造交互内容；知识与逻辑推理智能体则细分为知识智能体、逻辑智能体、情感推理智能体和神经-符号智能体，分别侧重知识融合、严密推理、情感理解和符号-神经协同。该分类框架既包含理论维度（如具身性、推理能力），也涵盖应

2025-10-13 14:59:31 560

原创阅读：《Agent AI: Surveying the Horizons of Multimodal Interaction》4 - 4.1.2

本文探讨了AgentAI的学习机制，重点介绍了强化学习(RL)和模仿学习(IL)两种核心策略及其与大语言/视觉模型(LLM/VLM)的协同应用。在RL方面，文章分析了传统方法面临的三大挑战（奖励设计、数据效率、长时程任务），并展示了LLM如何通过自动设计奖励函数、增强数据生成和采用分层规划（TAMP框架）来提升RL效果。在IL方面，文章阐述了行为克隆(BC)方法如何借助LLM/VLM构建强大的端到端模型，提升智能体的泛化能力。研究表明，将LLM的认知能力与传统学习方法相结合，能显著提升智能体在复杂任务中的表

2025-10-10 11:26:59 645

原创 SubAgent的“指令漂移 (Instruction Drift)“困境

本文探讨了构建高级AI Agent时面临的"指令漂移"问题及解决方案。在多Agent协同工作中，传统对话式编排容易导致关键信息丢失或曲解，造成流程偏离预期。作者通过自动化修复代码异味的案例，展示了对话式模式在复杂任务中的失败原因：上下文过载导致早期指令被稀释，多步推理难以准确执行。为解决这一问题，文章提出采用LangGraph框架构建结构化工作流。该方法通过定义共享状态对象(State)来精确传递数据，将专家行动改造为独立节点(Nodes)，并用逻辑连接构建确定性工作流。这种模式既保留

2025-09-29 10:49:35 797

原创阅读：Agent AI:Surveying the Horizons of Multimodal Interaction (2.3-3)

本文提出了一种利用通用基础模型（如ChatGPT、GPT-4等）构建具备涌现能力的交互式AI智能体新范式，旨在解决传统AI系统在未知环境中泛化性能不足的问题。核心创新是提出"知识推理交互混合现实"(MR-KII)机制，使智能体能够通过跨模态的微观反应（整合显式网络搜索和隐式模型推理）和现实无关的宏观行为（动态调整交互模式）来适应新环境。该框架利用预训练模型作为基础，支持长期任务规划，整合记忆系统，并通过环境反馈进行持续学习。研究还引入了"智能体转换器"概念，通过专门的

2025-09-23 17:34:40 1282

原创阅读：Agent AI:Surveying the Horizons of Multimodal Interaction (2.2.1-2.2.3)

AI智能体存在幻觉和偏见两大核心问题。幻觉表现为生成不忠实于源内容或无意义的文本，分为内在（与源材料矛盾）和外在（添加未包含信息）两类，可通过检索增强生成（RAG）等方法缓解。视觉语言模型（VLM）也因依赖数据共现性而产生幻觉。偏见源于训练数据中的人类社会偏见，表现为过度泛化、放大主流观点等。解决策略包括：使用多元化训练数据、开发偏见检测算法、制定道德准则、提高文化敏感性和可访问性，并通过用户反馈持续改进。这些措施旨在构建更具包容性和公平性的AI系统。

2025-09-23 16:36:38 848

原创阅读：Agent AI:Surveying the Horizons of Multimodal Interaction (1-2.2)

多模态代理AI：具身智能的未来发展路径本文探讨了多模态代理AI（AgentAI）作为下一代智能系统的核心架构，其通过整合语言、视觉和行动能力，在物理和虚拟环境中实现交互式任务执行。研究指出，当前基于大型基础模型（如LLMs/VLMs）的代理系统仍面临环境适应性和幻觉问题，提出通过知识迁移、层级化控制（规划-执行框架）和检索增强生成（RAG）等技术提升代理的可靠性和泛化能力。典型应用案例显示，代理AI在机器人操作、导航和虚拟角色行为生成中已实现语义理解与物理行动的闭环。论文强调，具身化设计能有效缓解大模型的

2025-09-16 14:15:46 815

原创 subagent是为了解决上下文窗口的问题吗？

摘要：Subagent（子代理）是一种通过任务分解和上下文聚焦来规避上下文窗口限制的策略。它将复杂任务拆分为子任务，由不同子代理专注处理各自所需的最小上下文，从而在有限窗口内完成大型任务。虽然能减少单次调用负担，但并非直接扩大窗口容量，而是通过"分而治之"的工作流设计实现超窗口信息处理。典型应用场景包括需要长程记忆或并行探索的复杂任务。

2025-09-11 16:55:13 246

原创关于多Agent协作框架的讨论：以产品经理工作流为例对比Sub Agent与AutoGen

本文对比了SubAgent和AutoGen两种多Agent协作框架在产品经理工作流中的应用。SubAgent采用分层委托模式，将工作流程分解为标准化子任务（市场调研→PBI生成→DevOps发布），具有职责清晰、执行高效的特点。AutoGen则适用于需要多专业协作的复杂决策（如市场调研），通过营销专家、产品经理等不同角色的Agent进行观点碰撞。实践表明，混合架构能结合两者优势：对标准化流程采用SubAgent，复杂决策采用AutoGen，并通过智能路由器自动选择执行模式。这种方案在保证效率的同时，提升了创

2025-09-04 15:18:45 1217

原创提示词工程：方向性刺激提示 (Directional Stimulus Prompting)

方向性刺激提示是一种高效的提示技术，通过直接给出期望输出的开头部分来精准控制大型语言模型的输出格式、结构和思考路径。这种方法利用模型的文本补全能力，强制其按照指定方向生成内容，确保格式稳定性和一致性。典型应用包括强制JSON输出、引导思考过程、控制代码生成等。通过提供"引子"（如JSON开头、代码片段起始或思考第一步），该技术能显著提高输出质量，在需要结构化数据或稳定格式的场景中尤为有效。

2025-08-07 14:25:37 586

原创 LangChain (LCEL) 和 AutoGen 的适合场景，核心理念

摘要： AutoGen和LangChain在处理多代理协作任务时有不同哲学。LangChain的LCEL更适合线性、确定性的工作流，通过管道式数据流实现清晰步骤；而AutoGen强调代理间的动态协作，适合非确定性、需要灵活交互的复杂任务。LangChain采用函数式编程风格，AutoGen更像面向角色的团队会议。对于严格步骤的任务，LangChain更直接；涉及多代理动态协作时，AutoGen更合适。两者可结合使用，LangChain处理结构化部分，AutoGen管理复杂交互。

2025-07-14 16:39:12 775

原创 LangChain 层级协作（Hierarchical Collaboration）模式的核心思想

这篇文章将深入探讨LangChain中的层级Agent协作模式，并以“Agent即工具”的核心思想贯穿全文。

2025-07-09 16:51:47 825

原创 Langchain 0.3 是否能直接调用 MCP Server

摘要： Langchain 0.3不能直接调用MCP Server，必须通过MCP Client作为中间层。这种三层架构遵循了关注点分离和协议抽象的设计原则，Langchain Agent负责业务逻辑，MCP Server提供技术能力，而MCP Client则处理协议转换和通信细节。直接调用会导致代码重复、职责混乱、维护困难和扩展性差。MCP Client作为桥梁，确保系统清晰、健壮且易于扩展，是现代软件工程的最佳实践。

2025-07-08 11:10:20 315

原创 langchain :记忆组件混淆概念澄清 & 创建Conversational ReAct后显示指定记忆组件

LangChain记忆组件与Agent设计解析记忆组件设计：create_react_agent本身不包含记忆功能，记忆管理由AgentExecutor负责。开发者需在创建AgentExecutor时通过memory参数显式指定记忆类型（如ConversationBufferWindowMemory），实现对话历史的动态加载与保存。工具参数的双重作用：create_react_agent需要工具列表（tools）用于构建LLM的决策提示（显示工具描述），而AgentExecutor需要相同的工具列表用于

2025-07-07 16:13:20 1017

原创 LangChain 文本摘要策略

本文介绍了LangChain中三种文本摘要策略的实现方式： Stuff策略：一次性处理整个文档，适用于短文本，类似于_execute_single_task中单个任务的直接执行。 Map-Reduce策略：将文档分割后并行处理再合并，对应_execute_workflow_tasks中的多任务协调机制。 Refine策略：迭代优化摘要内容，类似任务失败后的渐进式重试逻辑。每种策略在LangChain中通过load_summarize_chain指定类型实现，核心区别在于文档处理粒度（整体/分块/迭代）。选

2025-07-04 15:18:38 1278

原创 Langchain 实现自治多代理系统

本文展示了三种实现多代理协作的方案：1)条件触发式协作，通过轮询机制让研究员、作家和评审员依次工作；2)事件总线模式，使用消息队列实现代理间异步通信；3)基于LangGraph的状态机方案，通过有向图定义工作流和条件分支。方案采用差异化配置，研究员使用Wikipedia工具(temperature=0.7)，作家专注文本生成(temperature=0.4)，评审员设置严格标准(temperature=0.3)。高级方案支持动态路由和循环迭代，其中LangGraph实现的状态机最为推荐，能优雅处理复杂协作逻

2025-07-03 14:34:20 385

原创 Elasticsearch API访问权限控制：禁用外部端点访问

摘要：本文详细介绍了在Docker部署的Elasticsearch 8.17.0中实现细粒度API权限控制的完整方案。通过对比网络配置、nginx代理和ES原生安全功能三种方案，最终采用X-Pack Security角色权限机制，成功实现对外禁用/_cat敏感API的同时保留Grafana的完整访问权限。文章重点剖析了容器数据安全、配置挂载、APIKey认证等关键环节的5个典型踩坑点，并提供了角色创建、用户管理、密码修改等具体操作步骤。最终形成的权限矩阵清晰区分了超级管理员、应用服务和外部用户的不同权限层级

2025-06-23 15:23:18 1433

原创用户故事拆分指南——敏捷需求拆分的核心方法与原则

管理”是开放性动词 → 拆解为【发布】【修改】【暂停】【定时】【统计】5个子故事。“用户可向境外账户转账（支持VISA/MasterCard/银联，实时汇率计算）”新闻发布系统V1：用户上传Word → 自动转网页HTML（审核走线下OA）“作为HR，我可以管理发布的职位（含定时发布、修改、暂停、数据分析）”：计划（PI/迭代计划）→ 执行（开发/测试）→ 评审回顾 → 交付。列出数据属性（如简历的【基本信息】【工作经历】【教育背景】）微信加好友 → 拆分为【搜微信号】【扫二维码】【手机号添加】

2025-06-16 11:31:48 933

原创 LLM ：Function Call、MCP协议与A2A协议

由Anthropic提出的开放标准，旨在标准化LLM与外部工具/数据源的交互方式，解决“M×N”集成问题（即M个模型需适配N个工具的问题）。：由Google主导的开放协议，定义不同Agent（如招聘Agent、物流Agent）之间的通信规则。：由OpenAI等公司推动，允许大语言模型（LLM）通过自然语言指令调用外部API或工具（如天气查询、数据库操作等）。例如，物流Agent发现库存不足时，通过A2A通知采购Agent补货48。：A2A协议协调Agent（如客服Agent、订单Agent）。

2025-05-07 21:20:06 1460 2

原创 IDEA设置手动代理，用户名密码被加密无法通过代码修改的解决方案

use a proxy auto-config (PAC) file. 开启自动检测代理设置 - 自动代理配置URL。IEDA的代理配置文件账号密码是存在 proxy.settings.pwd 文件中的。如果用户从未配置过proxy，那么IDEA不存在 proxy.setting.xml文件夹。

2025-04-23 16:31:44 543

原创 paddleOCR项目打包分发后运行报错“tqdm\std.py“, line 452, in fp_write File

在 C:\Users\nihao.dong\下找到模型位置 .paddleocr。2. 需要修改 paddleocr.py的搜索路径代码。1. paddleOCR会根据固定路径去找模型。完毕双击exe，程序会基于当前目录查询模型。然后粘贴复制到dist文件夹下。生成了dist文件夹。

2025-03-27 16:35:08 924

原创译：PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks

随着数字化的快速发展，各种文档图像在生产和日常生活中得到了更广泛的应用，对文档图像内容进行快速准确解析的需求变得日益迫切。因此，本文提出了PP-DocBee，一种用于端到端文档图像理解的新型多模态大语言模型。首先，我们开发了一种针对文档场景的数据合成策略，构建了一个多样化的数据集，以提高模型的泛化能力。然后，我们应用了一些训练技巧，包括动态比例采样、数据预处理和OCR后处理策略。

2025-03-21 15:57:55 1227

原创译：《Converting a Hugging Face Model to a GGUF Model》转化HuggingFace原生模型为GGUF格式

前提：在部署视觉模型遇到LM studio中无法搜索到deepseek-vl译文：博客《Converting a Hugging Face Model to a GGUF Model》的。

2025-03-18 14:36:07 1261

原创指令型模型与推理型模型在目标导向与可重复性方向的优缺点分析

例如，为某类产品描述生成设计的提示，只要产品类型和描述需求不变，就可以反复使用该提示让模型生成符合要求的产品描述内容，这体现了工程所具备的可重复性特点，有助于提高生产效率和保证质量的稳定性。例如，在策略推理中，通过设计提示词引导模型生成符合竞争目标的策略（如商业谈判中的最优报价），显著提升了模型在动态环境中的决策效率。例如，在多模态任务中，指令若未明确对齐视觉与文本信息，可能生成与意图不符的结果。：结合指令的明确性与推理的灵活性，例如在指令中嵌入推理步骤模板，平衡效率与准确性。例如，在长文本检索任务（

2025-02-08 14:53:58 1243

原创 Copilot量化指标参数及其方法

同时，本文还介绍了市面上的 Dashboard 工具，以及这些工具中突出展示的指标。GitHub 提供了一个 Metrics Dashboard，可以可视化展示 GitHub Copilot 的使用情况。GitHub 提供了一个 Power BI 应用，可以用来监控和分析 GitHub Copilot 的使用情况。快速预览：此文列出了 GitHub Copilot Metrics API 提供的指标列表，其中核心的量化指标包括。分析代码补全的接受率与错误率（如后续测试中发现的缺陷），评估生成代码的可靠性。

2025-02-07 15:35:02 1815

原创如何评定 Ollama 本地部署 DeepSeek-R1-Distill-Qwen-1.5B 模型的运行速度和稳定性的方法

如果模型在运行过程中对系统资源的占用稳定，没有出现资源占用过高或波动过大的情况，则说明模型的稳定性较好。例如，在部署模型后，可以使用 Ollama 的命令行界面输入相关命令来启动性能测试工具，获取模型的性能报告。在模型运行过程中，记录模型返回错误结果的比例。例如，在模型处理每个请求时，将输出结果与预期结果进行对比，记录错误结果的数量，计算错误率。例如，如果模型的推理时间较短、吞吐量较高、错误率较低且在长时间运行过程中表现稳定，则可以得出结论：该模型在本地运行时具有较好的速度和稳定性。

2025-02-05 16:39:37 2002

原创 VS2022 无法使用GitHub账户登录/无法使用copilot 解决方案

如果出现不能正常使用的情况，比如正常登录后无法激活，或者已激活显示disabled，需要注意一下自己的github账号是否被flag过。（曾经和别人拼车过copilot企业版或者在已毕业情况下申请过学生免费版copilot）

2024-12-25 00:51:27 4179

原创结构化的Prompt

在自然语言处理和人工智能领域，结构化Prompt框架是一种帮助我们更有效地与AI模型交流的工具。以下是一些常见的结构化Prompt框架，它们可以帮助我们构建更精确、更高效的指令：1. BROKE框架： - 背景（Background）：提供任务的上下文或背景信息。 - 角色（Role）：定义AI模型在交互中的角色。 - 目标（Objective）：明确任务的目标。 - 关键结果（Key Results）：定义期望的具体效果。 - 演变（Evolve）：根据反馈调整和改进对话策略

2024-12-12 16:07:43 1299

原创 LLM：Embedding

这些实数向量可以被计算机更好地理解和处理。嵌入背后的主要想法是，相似或相关的对象在嵌入空间中的距离应该很近。举个例子，我们可以使用词嵌入（word embeddings）来表示文本数据。在词嵌入中，每个单词被转换为一个向量，这个向量捕获了这个单词的语义信息。例如，"king" 和 "queen" 这两个单词在嵌入空间中的位置将会非常接近，因为它们的含义相似。而 "apple" 和 "orange" 也会很接近，因为它们都是水果。而 "king" 和 "apple" 这两个单词在嵌入空间中的距离就会比较远，因

2024-12-04 15:33:02 834

原创 LLM：链式提示（prompt chaining）

如果我们直接给LLM一个非常复杂的指令，比如“创建一个可以处理用户输入并生成购物清单的程序”，这可能会让模型感到困惑，因为它需要处理很多细节，比如如何接收输入、如何存储商品、如何生成清单等。假设我们要使用大型语言模型（LLM）来完成一个复杂的任务：编写一个简单的购物清单程序，用户可以输入他们想要购买的商品，然后程序会生成一个购物清单。每个步骤都由一个简单的提示词来引导，这样LLM可以更清晰地理解每个步骤需要做什么，从而更有效地完成任务。- 提示词：`"你已输入以下商品：[商品列表]。请继续输入或完成购物。

2024-11-30 21:14:00 734

LangChain 0.3 多智能代理协作

空空如也