范桂飓-CSDN博客

原创 AWS 云技术专栏系列文章

目录文章目录目录AWSAWS《2021 亚马逊云科技中国峰会，对话 “容器混合云会是未来的答案吗？”》《无处不在的 AWS 云计算》《全面解读 AWS Private 5G 的革新理念》《AWS — 重塑混合云》《AWS — VPN 虚拟专用云》《AWS — AWS Local Zone》《AWS — AWS Wavelength》《AWS — AWS Outposts》《AWS — AWS Direct Connect》《AWS — AWS EC2》《AWS — AWS ECS》

2022-04-05 17:34:25 5052 2

原创软硬件融合加速技术系列文章

目录文章目录目录计算机组成原理Linux 操作系统原理处理器进程管理内存管理I/O 系统文件系统网络协议栈资源管理设备管理GPUFPGASmartNIC/DPU计算机组成原理《计算机组成原理 — 冯诺依曼体系结构》《计算机组成原理 — 基本硬件设备》《计算机组成原理 — CPU 中央处理器》《计算机组成原理 — 指令系统》《计算机组成原理 — 总线系统》《计算机组成原理 — 存储系统》《计算机组成原理 — 输入输出系统 — 存储控制器接口类型》《计算机组成原理 — 服务器》《计算机组成

2022-04-02 19:09:18 6021

原创架构师之路系列文章

目录文章目录目录软件架构API 经济系统架构分布式系统分布式消息队列分布式任务队列高可靠要求高性能要求安全要求软件架构API 经济《架构师之路 — API 经济 — API 实现方式》《架构师之路 — API 经济 — RESTful API 设计规范》《架构师之路 — API 经济 — Web、HTTP Server、API Service、Application》《架构师之路 — API 经济 — Swagger & OpenAPI Specification》系统架构分布式系

2022-02-05 15:26:52 4028 4

原创云计算与云原生技术系列文章

目录文章目录目录OpenStack IaaSKubernetes CaaSOpenShift PaaS云计算行业剖析云计算发展预测OpenStack IaaSKubernetes CaaSOpenShift PaaS云计算行业剖析云计算发展预测

2021-08-04 15:14:30 5263 6

原创云网融合与算力网络系列文章

目录文章目录目录OvSDPDKVPPNeutronOvS《OpenFlow Switch 1.3 规范》《OpenvSwitch 架构解析与功能实践》《基于 Open vSwitch 的 OpenFlow 实践》DPDK《用户态网络协议栈还是内核协议栈？》《DPDK — 数据平面开发技术》《DPDK — 数据平台优化技术》《DPDK — 架构解析》《DPDK — 安装部署》《DPDK — PMD，DPDK 的核心优化》《DPDK — IGB_UIO，与 UIO Framework

2021-02-28 13:43:12 7948 7

原创 5G + 边缘计算系列文章

目录文章目录目录5GUENRNGCUE + NR + NGC边缘计算ETSI云边缘云网融合云边协同分布式云算力网络边缘原生OpenNESSKubeEdgeOpenYurtOthers5G《5G — 3 大场景、8 大 KPI》《5G 3GPP 标准》《5GC 关键技术 5G 专网》《5GC 关键技术之网络切片》《5GC 关键技术之本地分流》《5G 网络关键流程解读》UE《5G 需要换 SIM 卡吗？》NRNGC《5G NGC 系统架构》《5G 核心网的 UPF（User Plan

2020-12-26 01:21:27 12724 12

原创 Transformer 大模型架构深度解析（2）RNN 循环神经网络模型在 NLP 中的应用

值得注意的是，Sequence Model 的 “历史记忆” 和 Hopfield Network 的 “联系记忆” 有本质的区别，“联想记忆” 并不适用于处理序列数据，而 “历史记忆” 的目标是发现序列数据中的模式和依赖关系，从而进行预测、分类，甚至生成新的序列。如下图所示，RNN 和 FFN 结构的主要区别就是 RNN 引入了一个循环结构，RNN 在每个时间步（t）处理一个序列元素时，不仅会接收当前的输入，还会接收来自上一个时间步（t-1）的隐藏状态（Hidden State）。

2026-01-21 12:26:12 618

原创 Transformer 大模型架构深度解析（1）NLP 自然语言处理文本表示方法

文本摘要（Text Summarization）就是根据文本内容生成一段简洁准确的摘要，来概括原文的主要内容。抽取式摘要（Extractive Summarization）：通过直接从原文中选取关键句子或短语来组成摘要。优点是摘要中的信息完全来自原文，因此准确性较高。然而，由于仅仅是原文中句子的拼接，有时候生成的摘要可能不够流畅。生成式摘要（Abstractive Summarization）：不仅涉及选择文本片段，还需要对这些片段进行重新组织和改写，并生成新的内容。

2026-01-21 12:19:25 634

原创大模型训练方法与数据集技术基本原理

Hugging Face（https://huggingface.co/）和魔塔社区（https://www.modelscope.cn/home）是著名的 2 个开源模型和开源数据集的网站，此外还有 OpenDataLab（https://opendatalab.com/）、智源数据平台（https://data.baai.ac.cn/dataset）等等，我们可以在这些网站上下载许多知名的开源数据集。通常的，我们需要考虑数据集采样配比的问题，将不同类型的数据（如新闻、百科、代码等）按合理比例混合。

2026-01-16 12:56:08 630

原创大模型分布式训练框架 Megatron-LM

数据预处理：Megatron-LM 提供了 preprocess_data.py 预处理脚本，将原始文本数据转换为 Megatron-LM 所需的 token 化二进制格式，支持高效加载。DeepSpeed 的核心技术是 ZeRO 技术，它可以克服数据并行和模型并行的局限性，同时实现两者的优点，它是将模型划分为状态参数、梯度、优化器状态来降低内存冗余，提升显存利用率。以 GPT 为例，模型参数包括。注意，多机训练的时候，启动容器时不能指定 --net host，会导致 NCCL 通信时报错。

2026-01-10 06:49:46 951

原创 vLLM 大模型推理实践

所以在本文的推理实践中采用了 NVIDIA 官方发布的 NVFP4 量化模型 nvidia/Qwen3-30B-A3B-NVFP4，总参数量 30B、单次激活参数量 3B 的 MoE 模型，可以最大化发挥硬件的内存与算力优势，是 PGX 的理想应用场景。在模型开发的日程工作中离不开性能剖析的工作，尤其是 Nsight System 和 Nsight Compute 这两款 NVIDIA 性能剖析工具的使用，这些工具都被预先安装在 PGX 上了，我们可以方便的通过 GUI 桌面进行使用。

2026-01-10 05:10:38 811

原创 LLaMA-Factory 大模型微调平台

微调是指在已经训练好的大型预训练模型的基础上，进一步训练该模型以适应特定任务或特定领域的数据。尽管完全微调可以对模型的能力进行深度改造，但要带入模型全部参数进行训练，需要消耗大量的算力，且有一定的技术门槛。由于微调需要消耗大量的显存，因此参数规模超过 30B 的大模型往往无法在 32GB 消费级 GPU 上运行，但却可以轻松在拥有 128GB UMA 的 PGX 上随时进行。其中，GGUF 是大模型的存储格式，可以对模型进行高效的压缩，减少模型的大小与内存占用，从而提升模型的推理速度和效率。

2026-01-10 05:06:36 836

原创大模型分布式训练框架 DeepSpeed

例如下边示例图左边的 Self-attention 模块，通过对比分析后得出，对 Self-attention 这块做重算的收益是非常高的，因为它的计算量相对会少一点，但它的一些中间结果输出占用的显存开销非常大。如上述，相比 FP32，FP16 可将显存占用减半，计算速度提升 2~3 倍。为了解决内存开销大的问题，微软提出了 ZeRO，可以根据不同的程度充分将优化器状态（os）、梯度（g）和模型参数（p）切分到所有的 GPU 中，也就是不同的 DP Group 中会存储不同的优化器状态、梯度和参数切片。

2026-01-06 20:45:52 1239

原创大模型性能优化方向

例如下边示例图左边的 Self-attention 模块，通过对比分析后得出，对 Self-attention 这块做重算的收益是非常高的，因为它的计算量相对会少一点，但它的一些中间结果输出占用的显存开销非常大。其次，使用比较多的是 Zero-2 和Zero-3。为了解决内存开销大的问题，微软提出了 ZeRO，可以根据不同的程度充分将优化器状态（os）、梯度（g）和模型参数（p）切分到所有的 GPU 中，也就是不同的 DP Group 中会存储不同的优化器状态、梯度和参数切片。

2026-01-05 17:28:50 785

原创 GPU 性能分析工具综述

在 nv-hostengine 和 GPU Driver 的追踪（Tracing）方面，以秒为单位，nv-hostengine 与 GPU Driver 接口交互用于收集 GPU 的指标，包括：SM 利用率、内存利用率、温度、功耗、时钟速度、ECC 内存错误、PCIe 吞吐量、NVLink 吞吐量等。最后，还实现了 CPU 和 GPU 两端事件的统一聚合与同步，两者通过高效的内核态 ring buffer 进行合并与关联，确保追踪过程中数据和时间戳的一致性和低延迟。具有非常低性能开销，并且是完全无侵入的。

2026-01-04 17:02:19 715

原创联想 ThinkStation PGX 专为 AI 开发者设计的桌面级 AI 超级计算机

AI 开发者创新神奇。

2025-12-30 12:45:01 34

原创模型训练资源需求计算公式

我们知道分布式训练 HPN 中有 2 个网络，在先进 HPN 网络设计中，通常会把计算和存储这 2 个 RDMA 网络进行隔离，避免彼此之间的带宽抢占，所以需要区别讨论。计算网络场景：all-reduce 进行梯度聚合，通信量由模型的参数大小和运算精度决定。存储网络场景：DP Dataloader 加载 batch 样本数据，通信量由 DP Group 数量和 Batch size 决定。这里我们主要讨论计算网络的带宽资源需求问题。每 Step 通信次数。

2025-12-19 22:34:37 879

原创人工智能发展史 — NLP 与 RNN/LSTM/Transformer/GPT 序列模型发展历程

2020年10月22日，Google团队发表An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale，提出了Vision Transformer（ViT），虽然不是第一篇将Transformer应用在视觉任务的论文，但是因为其模型“简单”且效果好，可扩展性强（scalable，模型越大效果越好），成为了transformer在CV领域应用的里程碑著作，也引爆了后续相关研究。引起了全球学术界和工业界的大语言模型热潮。

2025-12-11 21:13:49 1000

原创使用 Nsight Compute 来优化 CUDA 程序性能

以秒为单位，nv-hostengine 与 GPU Driver 接口交互用于收集 GPU 的指标，包括：计算利用率、内存利用率、温度、功耗、时钟速度、ECC 内存错误、PCIe 吞吐量、NVLink 吞吐量等，具有非常低的开销。Nsight Compute 广泛地对 GPU 硬件性能计数器进行数据采集，ncu 使用了 CUPTI 的 Event API、Metric API 和 CUDA Profiling API 来计算 GPU 所执行的指令、内存事务、warp 占用率等事件。

2025-12-11 12:22:07 1096

原创大模型预训练分布式并行技术（DP/PP/TP/EP/SP）基本原理

但是对于比较小的模型，或者细粒度的 MoE 模型，其矩阵乘法的 Shape 本身比较小，TP 切分后对算术强度的影响比较大，会导致吞吐的明显下降，无法充分发挥 GPU 的性能，因此在细粒度 MoE 模型的专家部分比较少采用 TP 并行。每块 GPU 执行 all-reduce 操作，收集所有 GPU 中的 local-gradient 梯度结果，然后进行求和求平均（归约）后得到一次迭代计算最终的有效 global-gradient，最后再同步到所有的 GPU 上并进行 Weights 权重参数的更新。

2025-11-20 15:00:33 930

原创 MPI 分布式并行计算通讯库技术

如果说 MPI 进程是一个计算概念，那么 MPI 进程组就是一个通信概念，表示若干个能够进行跨节点间 MPI 通信的一组 MPI 进程。关卡），在并行计算中，需要在最后将所有并行计算的子结果进行汇总，而快的进程就会在 Barrier 分界线上等待慢的进程完成计算，直到所有进程都完成了计算之后在进行下一步操作，所以也称之为同步等待。：用于描述 MPI 进程之间的通信范围，也称之为通信域，同时还记录了 MPI 进程组内或组外的 MPI 进程之间的通信拓扑和通信信息。将一个进程的数据分散到多个进程中。

2025-11-16 19:53:47 1159

原创 PerfTracker 论文解析与实践

PerfTracker 会展示所有对任务性能有一定影响的函数的性能报告，并指示是否有性能异常。不同类型的函数会按如下分类进行展示，具体见官方文档。将汇总后的数据，分别交由不同类别 extractor 解析，计算出函数对应 bottleneck 值，将汇总后数据写入汇总后文件。传统的 LMT 性能诊断有 “在线监控” 和 “离线剖析” 这 2 种方式，但这两种方法在 LLM 场景中都不理想。100 微秒精度的 GPU、NVLink、PCIe、DRAM 等硬件的各种指标监控信息。

2025-11-05 12:09:56 862

原创智能体 MCP 协议技术原理与应用实践

定义：是一个独立的、轻量的、作为 MCP Client 的服务器程序，同时也作为外部系统的前端程序，为 LLM 提供数据访问、工具执行和服务调用的能力。目前有多个开源库或网站提供了托管的 MCP 工具资源，用于增强 LLM 和 Agent 的能力，确保其生成响应的可靠性。Prompts 是 MCP Server 为 Resources、Tools 或特定使用场景所提供的提示词模板，支持参数化渲染和复用，帮助 LLM 生成特定类型的响应，例如：可以设计成多步骤的逻辑链，引导用户完成复杂的任务。

2025-10-15 11:31:58 882

原创 LangChain Agent Tooling 技术原理与 Workflow 编程实例

更多的，我们需要自定义大量的 Tools。LangChain 也提供了简介的 @tool 语法糖来简化开发的复杂度。下面以自定义的从 OpenWeather API 获取实时天气数据工具为例。import os"""查询即时天气函数:param local: 必要参数，字符串类型，用于表示查询天气的具体城市名称，\注意，中国的城市需要用对应城市的英文名称代替，例如如果需要查询北京市天气，则local参数需要输入'Beijing'；

2025-10-10 17:03:27 819

原创 LangChain Model I/O 与 Chain 核心技术原理与智能问答机器人编程实例

本文档是对教程《工业级智能体开发实践，LangChain从零入门与智能体开发实战！RAG知识库检索、MCP智能体开发、数据分析智能体搭建全领域实战！从零学会LangChain！》的实践记录，查看原文请跳转：https://www.bilibili.com/video/BV1pYKgzAE5C?

2025-10-07 08:09:33 1068 1

原创 AI Workflow v.s. AI Agent v.s. Agentic Workflow 与应用建议

但相对的，AI Workflow 需要开发者人为的对任务进行拆解，并且为了灵活地编排这些任务/流程，就需要开发者掌握图知识、任务编排、编程框架等概念和技术的引入，对开发者的能力要求较高。目前工业界主要还处于 AI Workflow 阶段的落地实践，典型产品有百度千帆 AppBuilder、扣子、Dify、LangGraph 框架等，通过不同的图结构来编排 LLM 决策过程，从而实现更复杂、更可靠的执行路径。但是，它们通常会创建额外的抽象层，这可能会使底层的提示和响应变得难以调试，增加了不必要的复杂性。

2025-10-05 18:17:26 935

原创 AI Agent 的体系化分类与产品形态分析

ReAct Agent 和 Function Call Agent 的关键区别在于前者具有自主的 Observe（观察）反馈和自主优化的能力，这是循环迭代的基本要求。：工具模式主要用于 Agent 场景，扩展 LLM 的能力边界，调用外部工具 / API 扩展功能，解决自身无法直接完成的任务（如实时数据查询、代码执行），使其具备影响外部系统的能力。Workflow 和 ReAct 的区别：从逻辑的角度对比，Workflow 是企业信息化转型的提效逻辑，而 ReAct 是以目标为导向的问题解决逻辑。

2025-10-05 15:13:50 926

原创 OpenManus 通用智能体实践与代码分析

过程中出现了 OpenAI API error: Error code: 429 错误，原因是 RATE_LIMIT_EXCEEDED 请求 PPIO OpenAI API Server 太快了被限速。非卡点问题，具体解决办法待定。browser_use 工具 go_to_url 打开网页，但是进入了人机测试页面，这里显然有问题。这些旅行计划的 md 文件中具有第二次补充的详细信息，包括：5 days、$1000、History 等细节。第二次请求关注具体的执行步骤，总结具有以下几类步骤和工具执行。

2025-10-04 02:14:00 692

原创人工智能发展史 — 物理学诺奖之 Hinton 玻尔兹曼机模型

因此，Geoffrey Hinton 等人在 1985 年发表论文《A learning algorithm for boltzmann machines》，提出了受限玻尔兹曼机（RBM），通过限制隐藏单元之间和可见单元之间的连接，简化了玻尔兹曼机的架构，即：隐藏单元本身之间没有连接，可见单元本身之间也没有连接。1958 年，大卫·考克斯提出了逻辑回归模型，这是一种广义的线性分类模型，数据公式与感知机模型相似，但使用了的是 Sigmoid 激活函数来替代阶跃函数进行分类，其目的是最大化线性分类的准确性。

2025-09-30 18:20:35 2752

原创使用 Nsight Systems 来优化 CUDA 程序性能

如果你的整个程序的核函数调用是均匀的，那么只对其中一段采样就可以了，那么可以设置一个分析的延后时间并采样中间的一段时间。如果整个程序调用核函数是不均匀的，随着时间变化核函数中的计算量，调用参数都会发生改变，那么建议全不勾选，这样它会分析整个程序的运行过程。Nsight Systems 是一款系统级性能分析工具性能分析工具，在系统级的层面，用于分析 GPU 和 CPU 之间的工作负载，例如：提供了从 CPU 调度到 GPU 内核执行过程的详细 Timeline 图。帮助识别 CUDA 层面的性能瓶颈。

2025-09-25 01:03:53 1845

原创在 Windows GPU 机器上运行 Linux CUDA

在 GPU WLS2 技术中，GPU Driver 被安装在 Windows 上，而 CUDA lib 则被安装在 Linux 上。如下图所示 Linux 中的 CUDA lib 通过 dxgkrnl（操作系统图形内核）来集成到 Win VDDM（图形驱动程序模型）中的 GPU Driver。通过 WSL2 和 GPU 半虚拟化（ GPU -PV ）技术，使得 GPU 开发者可以轻松地在 Windows GPU 机器上运行和调试 Linux CUDA 程序。其技术堆栈如下图所示。

2025-09-23 22:34:17 1174 2

原创 win11 安装 WSL2 Ubuntu 并支持远程 SSH 登录

【代码】win11 安装 WSL2 Ubuntu 并支持远程 SSH 登录。

2025-09-21 23:56:22 1044

原创 AI Agent 软件工程关键技术综述

后续步骤可以访问前面步骤的结果和数据，并根据结果判断调整执行路径，最终完成整个任务链条。Agentic AI 解决了 LLM 无法操作外部环境的问题，RAG 解决了 LLM 知识边界固化的问题，使得 LLM 应用的潜力得到了极大的扩展。RAG 是缓解或解决上述问题的良药，核心是 “动态知识注入机制”，提供了一个外部知识存储，在不修改 LLM 参数的前提下，通过 “外挂” 的形式为 LLM 补充 “实时、准确、私域” 的知识，拓宽了 LLM 的知识边界。最后，MCP Host 将工具执行结果输入到 LLM。

2025-09-14 20:39:34 1303

原创智能体综述：从 Agentic AI 到 AI Agent

区别于 AutoGPT 是一个研究项目，OpenAI Agent 是一个面向生产的软件架构范式，所以 OpenAI Agent 除了 “规划、行动、观测” 三元协同循环之外，还系统性的设计了 Memory（记忆体）、Planning（规划器）、Action（执行器）、Tools（工具集）四大模块以及它们之间的协作关系，进而增加了生产环境所需要的可信输出和 Prompt 子迭代优化的能力。但值得注意的是，现如今的 Multi-Agent 产品往往容易陷入华而不实的窘境，更强调技术而非业务问题的解决。

2025-09-13 17:42:42 1004

原创常用 AI 工具集

2025-07-07 11:06:57 323

原创程序性能分析器实现技术

PyEval_SetProfile 的本质是 Python 解析器 CPython 对外提供的一个接口函数，用于注册一个全局的性能分析（profiling）回调函数，然后监控 Python 代码的执行事件，如 PyTrace_CALL（函数调用）或 PyTrace_RETURN（函数返回）。混合方案：pyspy（采样） + cProfile（追踪），先用采样定位热点模块，再用追踪深入分析特定函数。代表工具：Python 的 cProfile、profile，Java 的 JProfiler（追踪模式）。

2025-06-16 17:53:20 1159

原创 Cursor 编程实践 — 开发环境部署

为了更方便地向 LLM 提供上下文信息，Cursor 内设了 @ 注记符，使用 @ Add Context 注记符能够方便地注入对应的上下文信息到 Chat 对话框中。Cursor IDE 是 VS Code 的一个分支，所以如果你已经在本地使用了 VS Code，那么可以直接导入 vscode 配置到 Cursor IDE 使用。例如：我现在有关于银行客户的数据样例，主要想做“银行信用：对银行客户的评分判别”分析，请帮我生成 python 代码并且分析。开箱即用：建议选择中文，方便打造个人习惯配置。

2025-06-11 18:48:13 1937

5G 核心网关键技术和对业务的支撑.pdf

H3C_CAS安装指导V1.0.docx

中国联通智能MEC技术白皮书.pdf

中间人网络设备如何完成 TLS extensions 合法插入？

女孩子做项目管理是什么体验？！：）