范桂飓-CSDN博客

原创智能体 MCP 协议技术原理与应用实践

定义：是一个独立的、轻量的、作为 MCP Client 的服务器程序，同时也作为外部系统的前端程序，为 LLM 提供数据访问、工具执行和服务调用的能力。目前有多个开源库或网站提供了托管的 MCP 工具资源，用于增强 LLM 和 Agent 的能力，确保其生成响应的可靠性。Prompts 是 MCP Server 为 Resources、Tools 或特定使用场景所提供的提示词模板，支持参数化渲染和复用，帮助 LLM 生成特定类型的响应，例如：可以设计成多步骤的逻辑链，引导用户完成复杂的任务。

2025-10-15 11:31:58 1138

原创 LangChain Agent Tooling 技术原理与 Workflow 编程实例

更多的，我们需要自定义大量的 Tools。LangChain 也提供了简介的 @tool 语法糖来简化开发的复杂度。下面以自定义的从 OpenWeather API 获取实时天气数据工具为例。import os"""查询即时天气函数:param local: 必要参数，字符串类型，用于表示查询天气的具体城市名称，\注意，中国的城市需要用对应城市的英文名称代替，例如如果需要查询北京市天气，则local参数需要输入'Beijing'；

2025-10-10 17:03:27 981

原创 LangChain Model I/O 与 Chain 核心技术原理与智能问答机器人编程实例

本文档是对教程《工业级智能体开发实践，LangChain从零入门与智能体开发实战！RAG知识库检索、MCP智能体开发、数据分析智能体搭建全领域实战！从零学会LangChain！》的实践记录，查看原文请跳转：https://www.bilibili.com/video/BV1pYKgzAE5C?

2025-10-07 08:09:33 1242 1

原创 AI Workflow v.s. AI Agent v.s. Agentic Workflow 与应用建议

但相对的，AI Workflow 需要开发者人为的对任务进行拆解，并且为了灵活地编排这些任务/流程，就需要开发者掌握图知识、任务编排、编程框架等概念和技术的引入，对开发者的能力要求较高。目前工业界主要还处于 AI Workflow 阶段的落地实践，典型产品有百度千帆 AppBuilder、扣子、Dify、LangGraph 框架等，通过不同的图结构来编排 LLM 决策过程，从而实现更复杂、更可靠的执行路径。但是，它们通常会创建额外的抽象层，这可能会使底层的提示和响应变得难以调试，增加了不必要的复杂性。

2025-10-05 18:17:26 1004

原创 AI Agent 的体系化分类与产品形态分析

ReAct Agent 和 Function Call Agent 的关键区别在于前者具有自主的 Observe（观察）反馈和自主优化的能力，这是循环迭代的基本要求。：工具模式主要用于 Agent 场景，扩展 LLM 的能力边界，调用外部工具 / API 扩展功能，解决自身无法直接完成的任务（如实时数据查询、代码执行），使其具备影响外部系统的能力。Workflow 和 ReAct 的区别：从逻辑的角度对比，Workflow 是企业信息化转型的提效逻辑，而 ReAct 是以目标为导向的问题解决逻辑。

2025-10-05 15:13:50 1068

原创 OpenManus 通用智能体实践与代码分析

过程中出现了 OpenAI API error: Error code: 429 错误，原因是 RATE_LIMIT_EXCEEDED 请求 PPIO OpenAI API Server 太快了被限速。非卡点问题，具体解决办法待定。browser_use 工具 go_to_url 打开网页，但是进入了人机测试页面，这里显然有问题。这些旅行计划的 md 文件中具有第二次补充的详细信息，包括：5 days、$1000、History 等细节。第二次请求关注具体的执行步骤，总结具有以下几类步骤和工具执行。

2025-10-04 02:14:00 859

原创人工智能发展史 — 物理学诺奖之 Hinton 玻尔兹曼机模型

因此，Geoffrey Hinton 等人在 1985 年发表论文《A learning algorithm for boltzmann machines》，提出了受限玻尔兹曼机（RBM），通过限制隐藏单元之间和可见单元之间的连接，简化了玻尔兹曼机的架构，即：隐藏单元本身之间没有连接，可见单元本身之间也没有连接。1958 年，大卫·考克斯提出了逻辑回归模型，这是一种广义的线性分类模型，数据公式与感知机模型相似，但使用了的是 Sigmoid 激活函数来替代阶跃函数进行分类，其目的是最大化线性分类的准确性。

2025-09-30 18:20:35 2886

原创使用 Nsight Systems 来优化 CUDA 程序性能

如果你的整个程序的核函数调用是均匀的，那么只对其中一段采样就可以了，那么可以设置一个分析的延后时间并采样中间的一段时间。如果整个程序调用核函数是不均匀的，随着时间变化核函数中的计算量，调用参数都会发生改变，那么建议全不勾选，这样它会分析整个程序的运行过程。Nsight Systems 是一款系统级性能分析工具性能分析工具，在系统级的层面，用于分析 GPU 和 CPU 之间的工作负载，例如：提供了从 CPU 调度到 GPU 内核执行过程的详细 Timeline 图。帮助识别 CUDA 层面的性能瓶颈。

2025-09-25 01:03:53 2177

原创在 Windows GPU 机器上运行 Linux CUDA

在 GPU WLS2 技术中，GPU Driver 被安装在 Windows 上，而 CUDA lib 则被安装在 Linux 上。如下图所示 Linux 中的 CUDA lib 通过 dxgkrnl（操作系统图形内核）来集成到 Win VDDM（图形驱动程序模型）中的 GPU Driver。通过 WSL2 和 GPU 半虚拟化（ GPU -PV ）技术，使得 GPU 开发者可以轻松地在 Windows GPU 机器上运行和调试 Linux CUDA 程序。其技术堆栈如下图所示。

2025-09-23 22:34:17 1295 2

原创 win11 安装 WSL2 Ubuntu 并支持远程 SSH 登录

【代码】win11 安装 WSL2 Ubuntu 并支持远程 SSH 登录。

2025-09-21 23:56:22 1414

原创 AI Agent 软件工程关键技术综述

后续步骤可以访问前面步骤的结果和数据，并根据结果判断调整执行路径，最终完成整个任务链条。Agentic AI 解决了 LLM 无法操作外部环境的问题，RAG 解决了 LLM 知识边界固化的问题，使得 LLM 应用的潜力得到了极大的扩展。RAG 是缓解或解决上述问题的良药，核心是 “动态知识注入机制”，提供了一个外部知识存储，在不修改 LLM 参数的前提下，通过 “外挂” 的形式为 LLM 补充 “实时、准确、私域” 的知识，拓宽了 LLM 的知识边界。最后，MCP Host 将工具执行结果输入到 LLM。

2025-09-14 20:39:34 1432

原创智能体综述：从 AI Agent 到 Agentic AI

区别于 AutoGPT 是一个研究项目，OpenAI Agent 是一个面向生产的软件架构范式，所以 OpenAI Agent 除了 “规划、行动、观测” 三元协同循环之外，还系统性的设计了 Memory（记忆体）、Planning（规划器）、Action（执行器）、Tools（工具集）四大模块以及它们之间的协作关系，进而增加了生产环境所需要的可信输出和 Prompt 子迭代优化的能力。但值得注意的是，现如今的 Multi-Agent 产品往往容易陷入华而不实的窘境，更强调技术而非业务问题的解决。

2025-09-13 17:42:42 1217

原创常用 AI 工具集

2025-07-07 11:06:57 378

原创程序性能分析器实现技术

PyEval_SetProfile 的本质是 Python 解析器 CPython 对外提供的一个接口函数，用于注册一个全局的性能分析（profiling）回调函数，然后监控 Python 代码的执行事件，如 PyTrace_CALL（函数调用）或 PyTrace_RETURN（函数返回）。混合方案：pyspy（采样） + cProfile（追踪），先用采样定位热点模块，再用追踪深入分析特定函数。代表工具：Python 的 cProfile、profile，Java 的 JProfiler（追踪模式）。

2025-06-16 17:53:20 1254

原创 Cursor 编程实践 — 开发环境部署

为了更方便地向 LLM 提供上下文信息，Cursor 内设了 @ 注记符，使用 @ Add Context 注记符能够方便地注入对应的上下文信息到 Chat 对话框中。Cursor IDE 是 VS Code 的一个分支，所以如果你已经在本地使用了 VS Code，那么可以直接导入 vscode 配置到 Cursor IDE 使用。例如：我现在有关于银行客户的数据样例，主要想做“银行信用：对银行客户的评分判别”分析，请帮我生成 python 代码并且分析。开箱即用：建议选择中文，方便打造个人习惯配置。

2025-06-11 18:48:13 2318

原创 AI Agent 与 Agentic AI 企业实践

标注过程中还需建立严格的质量控制机制，包括随机抽检、交叉验证和专家评审等多重保障措施，确保数据质量达到行业应用标准。高质量的标注数据不仅提升了Agent的专业表现，也为后续的模型微调提供了可靠基础。数据工程实施：核心在于构建高质量的专业知识库。知识库构建流程始于全面的原始数据采集，需综合考虑公开文献、行业标准和企业内部资料等多种数据源。技术架构设计：需要充分考虑业务特性和性能要求，典型的分层架构包括感知层、推理层、执行层和反馈学习层四个核心部分。如：客户服务智能助手。如：金融投资分析系统。

2025-06-07 10:32:13 1429

原创 AI Agent 与 Agentic AI 实现技术框架

AI Agent 协议的定义：本质是一个标准化的通信协议，定义了 Agent 之间以及 Agent 与外部系统之间的结构化通信的规则、格式和程序。作为系统的 “大脑”，结合领域适配的大模型与知识图谱，实现对复杂场景的理解和决策推理，例如在法律助手应用中，需要将最新法规与历史判例进行语义关联，支持类案推理；2024 年以来，随着 Multi-Agent 技术的成熟，涌现了一系列的 AI Agent 通信协议，包括：MCP、A2A、ANP、AP 等等。数据工程实施：核心在于构建高质量的专业知识库。

2025-06-07 10:10:36 1268

原创 AI Agent 与 Agentic AI 综述

智能体（Agent）是一种能够 “感知环境→理解输入→规划决策→执行反馈”，以此来实现特定目标的软件实体，它们超越传统自动化脚本，不再依赖固定流程，而具备一定程度的环境适应与智能行为。智能体具有 4 大基本能力，如下图所示。记忆：分为短期记忆和长期记忆。是理解能力的基础，理解能力是指智能体解读用户指令、理解任务目标的能力。最新研究如 MobileFlow 引入了 GUI Chain-of-Thought（CoT）技术，使模型能够像人类一样进行推理，从而更好地理解复杂任务。

2025-06-06 01:05:02 1311

原创 GPU 超级节点：AWS Trainium UltraServer

Trainium1 于 2020 年发布，使用 NeuronCore-v2 核心，是一款用于专注于 AI/ML 训练的加速芯片，支持 BF16 和 FP32 进行高精度训练，以及支持 TF32、FP16 和 INT8 以提高效率，还配备了专用的集合通信库芯片。可用于训练数十亿参数的大模型。2024 年，AWS 宣布了下一代 Trainium3 芯片，采用 3nm（纳米）制程，预计将比 Trainium2 提升 2 倍的性能，改善 40% 的能效，将于 2025 年底推出。所以，是的，这大约好 37.5%。

2025-05-19 00:34:02 3443

原创英语口语错题集

解释：“Calling” is a verb or gerund, not a countable noun in this case. “Calls” is the correct plural noun for phone calls.解释：The subject “a person” already applies to both actions, so you don’t need to repeat “they need to”.解释：“Who talking” → “who talk”

2025-05-10 17:45:37 1229

原创人工智能发展史 — 物理学诺奖之 Hopfield 联想和记忆神经网络模型

约翰·霍普菲尔德（John Hopfield）文学士、物理学博士，研究领域横跨物理学、分子生物学、神经科学、计算机科学，是一名以推动跨学科交叉融合而闻名于世的科学家，其推动了物理学与生命科学、人工智能的交叉融合，被誉为 “扩展统计物理学边界的先驱”，获得了 2024 年的物理学诺贝尔奖。霍普菲尔德早期是理论物理学家，专注于固体物理和量子力学，研究电子行为与能量状态，在激化子、长程电子输运等方面有极大的贡献。

2025-05-03 11:49:52 3250

原创人工智能发展史 — MP 模型和感知机模型的数学模型与编程应用

这意味着用于描述样本的特征需要由专家设计，算法性能依赖于人工设计和抽取这些特征的准确度，以便使模型能够完成特定的任务，因此它的应用受到了很大的限制。其中，“阈值逻辑”、“Hebb 学习率”，前 2 个理论解决了单个神经元层面的建模问题，来自于对大脑神经元的生理学研究，共同构成了 “感知机” 的理论基础，在 1950s 提出；所以，和 MP 模型一样，感知机模型也是一个应用于线性分类场景的 “二分类” 分类器，训练的目标是找到一个超平面（例如：在二维空间中的超平面是一条直线），来将特征空间中的样本分为两类。

2025-04-26 02:43:41 1233

原创案例分析：东华新径，拉动式生产的智造之路

客户对质量的吐槽：转向系统涉及汽车安全性关键，客户对产品质量要求极高，对故障率的态度是零容忍。产线对产量的吐槽：市场对产品的需求多变，生产线时而闲死，时而忙死，生产排班计划经常变化。生产计划是按月排的。后勤对仓库的吐槽：仓库需要提前一天备好物料，生产计划的频繁修改，让仓库备货手忙脚乱。仓库物料时按天备的。王总的吐槽：车间管理漏洞百出，东西乱摆乱放，小作坊现象严重。核心述求：如何确保产量的同时保证产品质量？产品质量问题根因追溯难、解决慢、成本高！生产计划跟不上市场订单的变化！

2025-04-11 23:58:19 1682

原创 AI 数理逻辑基础之统计学基本原理（上）

离散系数是一种 “无量纲” 的相对度量，公式如下，离散系数等于标准差除以均值，从而消除了量纲的影响，例如：1.4/6=0.23 和 14/60=0.23 之间的 CV 相同，但量纲相差了 10 倍。Pearson 用于测量 x 和 y 连续变量之间的线性相关性，但现实中存在大量非线性相关的数据集，但它们之间也会存在某种关联关系，如单调关系。掌握统计学的数据科学家或工程师，他们和具体的行业紧密相联，有扎实的统计基础，也有丰富的行业经验。通过海量数据进行分析，获得具有巨大价值的产品和服务，或深刻的洞见。

2025-04-04 23:58:42 1496 1

原创联结主义人工智能发展史

核心思想是：认为人的智能归结为人脑的高层活动的结果，强调智能活动是由大量简单的单元通过复杂链接后并行运行的结果。弗兰克·罗森布拉特（Frank Rosenblatt）基于 MP 模型再进一步发明并在 IBM-704 计算机上实现了一种新的神经元数学模型，称为感知机模型（Perceptron），现在也将其称为一种单层神经网络，是神经网络和支持向量机的基础，作为早期神经网络研究的一个重要里程碑。即：感知机是二分类的线性模型，其输入的是实例的特征向量，输出的是实例的类别（+1 和 -1）。

2025-04-02 16:29:56 1306

原创 GPU 的数据类型

在这些应用中，对于一些实时性要求较高的任务，如图形渲染、音视频处理等，单精度浮点数能够提供足够的精度，并且在存储和计算上更加高效，能够满足实时性和资源限制的需求。我们知道，计算机是以 0 和 1 构成的二进制数字进行运算的，比如在基础的二进制里，1 就是 1，2 就变成了 “10”，3 是 “11”。算力（Computational Power）：指计算机系统的运算能力，涵盖了 CPU、GPU、TPU、NPU 等运算芯片的能力特征，算力决定了计算机处理信息的速度和效率，是评估计算机整体性能的重要指标。

2025-03-26 20:47:10 1967

原创 GPU/CUDA 发展编年史：从 3D 渲染到 AI 大模型时代（上）

要彻底搞明白 GPU 和 CUDA 的运行原理并不容易，而回顾技术的发展历史则是知其然且知其所以然的一个好方法，所以本文会使用篇年纪的方式进行写作。

2025-03-03 00:32:31 6895 3

原创 NCCL 分布式并行计算通讯库技术

NCCL（NVIDIA Collective Communication Library）集合通讯库，是 NVIDIA 为 AI 模型开发者提供的、专用于控制多张 GPU 之间进行高效通信的 lib 库，应用于分布式 GPU 训练场景。如下深度学习软件堆栈图所示。NCCL 的北向是 AI 模型开发框架 PyTorch、Paddle、TensorFlow 等，这些 AI 框架通过集成、调用 NCCL lib 库来控制 GPU 之间的数据通信方式。

2025-02-28 12:59:57 3868

原创大规模 RDMA AI 组网技术创新：算法和可编程硬件的深度融合

对于上述问题，HPCC 的核心思想是利用 INT（In-Network Telemetry，在网遥测）技术来提供精确的链路负载信息，并以此来计算出准确的 Sender 速率更新数值，并且实践发现 HPCC 在大多数情况下仅需要 Sender 更新一次速率，而无需迭代更新。TIMELY 算法的核心思想是通过测量报文的 RTT（端到端往返时间）来动态调整 Sender 的发送速率，基于 RTT 的变化进行梯度计算，进而根据梯度实现了基于速率（rate-based）的调速方法。

2025-02-22 19:10:14 2305

原创 RoCEv2 高性能传输协议与 Lossless 无损网络

它是 DCB (Data Center Bridging）标准的一部分，用于将流量分配到不同的队列，为每个队列分配一个权重，控制每个流量队列能够使用的带宽百分比，保证高优先级的流量，如 RDMA 流量通常会分配足够的带宽资源。因此，一旦出现丢包，就只能采用 go back N 重传机制，比如：网络链路上已经发送了 1，2，3，4，5 个数据包，假如当 2 这包丢掉了，那么 3，4，5 这三个包都要重传，重传的成本非常大。如下图所示，一旦发生丢包重传，RDMA 的性能就会急剧下降。

2025-02-22 10:45:05 4678

原创 RDMA 高性能通信技术原理

DMA 技术出现后，NIC 增加了 DMA Controller（DMA Engine）功能模块，首先将 NIC Rx/Tx Queue 与 Main Memory 中的 ZONE_DMA 建立映射关系，然后当 Frames 进入 NIC Rx/Tx Queue 时，DMA Controller 就会将这些 Frames 通过 DMA Copy 的方式存放到 ZONE_DMA 中，期间完全不需要 CPU 的参与。但相对的，由于连接机制和可靠性保障机制的存在，导致 RC 的通信开销较大。

2025-02-17 19:13:40 2243

原创 LLM 大模型技术原理与应用实践专栏

RDMA 高性能通信技术原理》

2025-02-17 16:21:27 1010

原创 8 卡 GPU 服务器与 NVLink/NVSwitch 互联技术

NVLink 是一种点对点的高速互连技术，单条 NVLink 就是一条全双工双路信道，每条 NVLink 链路可以将 2 个 GPU 直连起来，并且每个 GPU 可以提供多条 NVLink 接口连接多个 GPU。另外，PCIe Switch 互联拓扑中的 GPU 之间可能存在 GPU0→Switch0→CPU0→CPU1→Switch1→GPU7 的通信链路，它的通信不可避免的存在一定的延迟，因而更适合用于对信号效率不敏感且追求性价比的使用场景，如：推理、云计算等领域。本文讨论的是单机 GPU 卡间互联。

2025-02-06 22:02:48 3722

原创人工智能发展历程

AI

2025-01-28 10:13:42 2298 1

原创系统学英语 — 句法 — 复合句

其中常见的抽象名词有：news、idea、promise、question、doubt、thought、hope、message、suggestion、possibility、order、truth、proposal、belief 等。：使用代词 It 将冗长的主语代替并前置，真正的主语被后置。定语从句的 3 要素包括：先行词 + 定从引导词 + 从句结束位置。充当宾语的句子，通常位于谓语之后，也可以位于介词之后（介宾）和形容词之后（形宾）。充当主语的句子，通常位于谓语之前，不常见的也有主语后置的情况。

2025-01-27 19:20:00 1337

原创共享图书产品需求分析

大数据分析软件：根据图书被借阅数据、人员借书数据分析读者的读书偏好以及书籍的热度，可对在校学生的阅读进行评估。其他行业：汽车合格证管理、高端鞋包租赁展示管理、企业保密档案管理、企业重要合同协议文件管理等。图书行业：图书馆智能书柜、中小学分布式图书馆、微型图书馆、共享图书、漂流书柜、图书无人零售；智能图书柜的应用场景是非常广泛的：学校、图书馆、社区、写字楼、大型企业、地铁等地方。医疗行业：药品无人零售、重点器材药品管理、医院重点档案检测报告管理等；15. (手机或卡片自动记录还书信息)17. 点击“换书”

2024-12-25 09:18:17 1189

5G 核心网关键技术和对业务的支撑.pdf

H3C_CAS安装指导V1.0.docx

中国联通智能MEC技术白皮书.pdf

中间人网络设备如何完成 TLS extensions 合法插入？

女孩子做项目管理是什么体验？！：）