- 博客(1680)
- 资源 (3)
- 问答 (2)
- 收藏
- 关注
原创 AWS 云技术专栏系列文章
目录文章目录目录AWSAWS《2021 亚马逊云科技中国峰会,对话 “容器混合云会是未来的答案吗?”》《无处不在的 AWS 云计算》《全面解读 AWS Private 5G 的革新理念》《AWS — 重塑混合云》《AWS — VPN 虚拟专用云》《AWS — AWS Local Zone》《AWS — AWS Wavelength》《AWS — AWS Outposts》《AWS — AWS Direct Connect》《AWS — AWS EC2》《AWS — AWS ECS》
2022-04-05 17:34:25
5022
2
原创 软硬件融合加速技术系列文章
目录文章目录目录计算机组成原理Linux 操作系统原理处理器进程管理内存管理I/O 系统文件系统网络协议栈资源管理设备管理GPUFPGASmartNIC/DPU计算机组成原理《计算机组成原理 — 冯诺依曼体系结构》《计算机组成原理 — 基本硬件设备》《计算机组成原理 — CPU 中央处理器》《计算机组成原理 — 指令系统》《计算机组成原理 — 总线系统》《计算机组成原理 — 存储系统》《计算机组成原理 — 输入输出系统 — 存储控制器接口类型》《计算机组成原理 — 服务器》《计算机组成
2022-04-02 19:09:18
5774
原创 架构师之路系列文章
目录文章目录目录软件架构API 经济系统架构分布式系统分布式消息队列分布式任务队列高可靠要求高性能要求安全要求软件架构API 经济《架构师之路 — API 经济 — API 实现方式》《架构师之路 — API 经济 — RESTful API 设计规范》《架构师之路 — API 经济 — Web、HTTP Server、API Service、Application》《架构师之路 — API 经济 — Swagger & OpenAPI Specification》系统架构分布式系
2022-02-05 15:26:52
3988
4
原创 云计算与云原生技术系列文章
目录文章目录目录OpenStack IaaSKubernetes CaaSOpenShift PaaS云计算行业剖析云计算发展预测OpenStack IaaSKubernetes CaaSOpenShift PaaS云计算行业剖析云计算发展预测
2021-08-04 15:14:30
5216
6
原创 云网融合与算力网络系列文章
目录文章目录目录OvSDPDKVPPNeutronOvS《OpenFlow Switch 1.3 规范》《OpenvSwitch 架构解析与功能实践》《基于 Open vSwitch 的 OpenFlow 实践》DPDK《用户态网络协议栈还是内核协议栈?》《DPDK — 数据平面开发技术》《DPDK — 数据平台优化技术》《DPDK — 架构解析》《DPDK — 安装部署》《DPDK — PMD,DPDK 的核心优化》《DPDK — IGB_UIO,与 UIO Framework
2021-02-28 13:43:12
7900
7
原创 5G + 边缘计算系列文章
目录文章目录目录5GUENRNGCUE + NR + NGC边缘计算ETSI云边缘云网融合云边协同分布式云算力网络边缘原生OpenNESSKubeEdgeOpenYurtOthers5G《5G — 3 大场景、8 大 KPI》《5G 3GPP 标准》《5GC 关键技术 5G 专网》《5GC 关键技术之网络切片》《5GC 关键技术之本地分流》《5G 网络关键流程解读》UE《5G 需要换 SIM 卡吗?》NRNGC《5G NGC 系统架构》《5G 核心网的 UPF(User Plan
2020-12-26 01:21:27
12662
12
原创 人工智能发展史 — RNN/LSTM/GRU/Transformer 序列模型发展历程
2020年10月22日,Google团队发表An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,提出了Vision Transformer(ViT),虽然不是第一篇将Transformer应用在视觉任务的论文,但是因为其模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域应用的里程碑著作,也引爆了后续相关研究。引起了全球学术界和工业界的大语言模型热潮。
2025-12-11 21:13:49
822
原创 使用 Nsight Compute 来优化 CUDA 程序性能
以秒为单位,nv-hostengine 与 GPU Driver 接口交互用于收集 GPU 的指标,包括:计算利用率、内存利用率、温度、功耗、时钟速度、ECC 内存错误、PCIe 吞吐量、NVLink 吞吐量等,具有非常低的开销。Nsight Compute 广泛地对 GPU 硬件性能计数器进行数据采集,ncu 使用了 CUPTI 的 Event API、Metric API 和 CUDA Profiling API 来计算 GPU 所执行的指令、内存事务、warp 占用率等事件。
2025-12-11 12:22:07
974
原创 大模型预训练分布式并行技术(DP/PP/TP/EP/SP)基本原理
但是对于比较小的模型,或者细粒度的 MoE 模型,其矩阵乘法的 Shape 本身比较小,TP 切分后对算术强度的影响比较大,会导致吞吐的明显下降,无法充分发挥 GPU 的性能,因此在细粒度 MoE 模型的专家部分比较少采用 TP 并行。每块 GPU 执行 all-reduce 操作,收集所有 GPU 中的 local-gradient 梯度结果,然后进行求和求平均(归约)后得到一次迭代计算最终的有效 global-gradient,最后再同步到所有的 GPU 上并进行 Weights 权重参数的更新。
2025-11-20 15:00:33
604
原创 MPI 分布式并行计算通讯库技术
如果说 MPI 进程是一个计算概念,那么 MPI 进程组就是一个通信概念,表示若干个能够进行跨节点间 MPI 通信的一组 MPI 进程。关卡),在并行计算中,需要在最后将所有并行计算的子结果进行汇总,而快的进程就会在 Barrier 分界线上等待慢的进程完成计算,直到所有进程都完成了计算之后在进行下一步操作,所以也称之为同步等待。:用于描述 MPI 进程之间的通信范围,也称之为通信域,同时还记录了 MPI 进程组内或组外的 MPI 进程之间的通信拓扑和通信信息。将一个进程的数据分散到多个进程中。
2025-11-16 19:53:47
1099
原创 PerfTracker 论文解析与实践
PerfTracker 会展示所有对任务性能有一定影响的函数的性能报告,并指示是否有性能异常。不同类型的函数会按如下分类进行展示,具体见官方文档。将汇总后的数据,分别交由不同类别 extractor 解析,计算出函数对应 bottleneck 值,将汇总后数据写入汇总后文件。传统的 LMT 性能诊断有 “在线监控” 和 “离线剖析” 这 2 种方式,但这两种方法在 LLM 场景中都不理想。100 微秒精度的 GPU、NVLink、PCIe、DRAM 等硬件的各种指标监控信息。
2025-11-05 12:09:56
815
原创 智能体 MCP 协议技术原理与应用实践
定义:是一个独立的、轻量的、作为 MCP Client 的服务器程序,同时也作为外部系统的前端程序,为 LLM 提供数据访问、工具执行和服务调用的能力。目前有多个开源库或网站提供了托管的 MCP 工具资源,用于增强 LLM 和 Agent 的能力,确保其生成响应的可靠性。Prompts 是 MCP Server 为 Resources、Tools 或特定使用场景所提供的提示词模板,支持参数化渲染和复用,帮助 LLM 生成特定类型的响应,例如:可以设计成多步骤的逻辑链,引导用户完成复杂的任务。
2025-10-15 11:31:58
832
原创 LangChain Agent Tooling 技术原理与 Workflow 编程实例
更多的,我们需要自定义大量的 Tools。LangChain 也提供了简介的 @tool 语法糖来简化开发的复杂度。下面以自定义的从 OpenWeather API 获取实时天气数据工具为例。import os"""查询即时天气函数:param local: 必要参数,字符串类型,用于表示查询天气的具体城市名称,\注意,中国的城市需要用对应城市的英文名称代替,例如如果需要查询北京市天气,则local参数需要输入'Beijing';
2025-10-10 17:03:27
765
原创 LangChain Model I/O 与 Chain 核心技术原理与智能问答机器人编程实例
本文档是对教程《工业级智能体开发实践,LangChain从零入门与智能体开发实战!RAG知识库检索、MCP智能体开发、数据分析智能体搭建全领域实战!从零学会LangChain!》的实践记录,查看原文请跳转:https://www.bilibili.com/video/BV1pYKgzAE5C?
2025-10-07 08:09:33
1020
1
原创 AI Workflow v.s. AI Agent v.s. Agentic Workflow 与应用建议
但相对的,AI Workflow 需要开发者人为的对任务进行拆解,并且为了灵活地编排这些任务/流程,就需要开发者掌握图知识、任务编排、编程框架等概念和技术的引入,对开发者的能力要求较高。目前工业界主要还处于 AI Workflow 阶段的落地实践,典型产品有百度千帆 AppBuilder、扣子、Dify、LangGraph 框架等,通过不同的图结构来编排 LLM 决策过程,从而实现更复杂、更可靠的执行路径。但是,它们通常会创建额外的抽象层,这可能会使底层的提示和响应变得难以调试,增加了不必要的复杂性。
2025-10-05 18:17:26
903
原创 AI Agent 的体系化分类与产品形态分析
ReAct Agent 和 Function Call Agent 的关键区别在于前者具有自主的 Observe(观察)反馈和自主优化的能力,这是循环迭代的基本要求。:工具模式主要用于 Agent 场景,扩展 LLM 的能力边界,调用外部工具 / API 扩展功能,解决自身无法直接完成的任务(如实时数据查询、代码执行),使其具备影响外部系统的能力。Workflow 和 ReAct 的区别:从逻辑的角度对比,Workflow 是企业信息化转型的提效逻辑,而 ReAct 是以目标为导向的问题解决逻辑。
2025-10-05 15:13:50
876
原创 OpenManus 通用智能体实践与代码分析
过程中出现了 OpenAI API error: Error code: 429 错误,原因是 RATE_LIMIT_EXCEEDED 请求 PPIO OpenAI API Server 太快了被限速。非卡点问题,具体解决办法待定。browser_use 工具 go_to_url 打开网页,但是进入了人机测试页面,这里显然有问题。这些旅行计划的 md 文件中具有第二次补充的详细信息,包括:5 days、$1000、History 等细节。第二次请求关注具体的执行步骤,总结具有以下几类步骤和工具执行。
2025-10-04 02:14:00
564
原创 人工智能发展史 — 物理学诺奖之 Hinton 玻尔兹曼机模型
因此,Geoffrey Hinton 等人在 1985 年发表论文《A learning algorithm for boltzmann machines》,提出了受限玻尔兹曼机(RBM),通过限制隐藏单元之间和可见单元之间的连接,简化了玻尔兹曼机的架构,即:隐藏单元本身之间没有连接,可见单元本身之间也没有连接。1958 年,大卫·考克斯提出了逻辑回归模型,这是一种广义的线性分类模型,数据公式与感知机模型相似,但使用了的是 Sigmoid 激活函数来替代阶跃函数进行分类,其目的是最大化线性分类的准确性。
2025-09-30 18:20:35
2665
原创 使用 Nsight Systems 来优化 CUDA 程序性能
如果你的整个程序的核函数调用是均匀的,那么只对其中一段采样就可以了,那么可以设置一个分析的延后时间并采样中间的一段时间。如果整个程序调用核函数是不均匀的,随着时间变化核函数中的计算量,调用参数都会发生改变,那么建议全不勾选,这样它会分析整个程序的运行过程。Nsight Systems 是一款系统级性能分析工具性能分析工具,在系统级的层面,用于分析 GPU 和 CPU 之间的工作负载,例如:提供了从 CPU 调度到 GPU 内核执行过程的详细 Timeline 图。帮助识别 CUDA 层面的性能瓶颈。
2025-09-25 01:03:53
1639
原创 在 Windows GPU 机器上运行 Linux CUDA
在 GPU WLS2 技术中,GPU Driver 被安装在 Windows 上,而 CUDA lib 则被安装在 Linux 上。如下图所示 Linux 中的 CUDA lib 通过 dxgkrnl(操作系统图形内核)来集成到 Win VDDM(图形驱动程序模型)中的 GPU Driver。通过 WSL2 和 GPU 半虚拟化( GPU -PV )技术,使得 GPU 开发者可以轻松地在 Windows GPU 机器上运行和调试 Linux CUDA 程序。其技术堆栈如下图所示。
2025-09-23 22:34:17
1093
2
原创 AI Agent 软件工程关键技术综述
后续步骤可以访问前面步骤的结果和数据,并根据结果判断调整执行路径,最终完成整个任务链条。Agentic AI 解决了 LLM 无法操作外部环境的问题,RAG 解决了 LLM 知识边界固化的问题,使得 LLM 应用的潜力得到了极大的扩展。RAG 是缓解或解决上述问题的良药,核心是 “动态知识注入机制”,提供了一个外部知识存储,在不修改 LLM 参数的前提下,通过 “外挂” 的形式为 LLM 补充 “实时、准确、私域” 的知识,拓宽了 LLM 的知识边界。最后,MCP Host 将工具执行结果输入到 LLM。
2025-09-14 20:39:34
1272
原创 智能体综述:从 Agentic AI 到 AI Agent
区别于 AutoGPT 是一个研究项目,OpenAI Agent 是一个面向生产的软件架构范式,所以 OpenAI Agent 除了 “规划、行动、观测” 三元协同循环之外,还系统性的设计了 Memory(记忆体)、Planning(规划器)、Action(执行器)、Tools(工具集)四大模块以及它们之间的协作关系,进而增加了生产环境所需要的可信输出和 Prompt 子迭代优化的能力。但值得注意的是,现如今的 Multi-Agent 产品往往容易陷入华而不实的窘境,更强调技术而非业务问题的解决。
2025-09-13 17:42:42
953
原创 程序性能分析器实现技术
PyEval_SetProfile 的本质是 Python 解析器 CPython 对外提供的一个接口函数,用于注册一个全局的性能分析(profiling)回调函数,然后监控 Python 代码的执行事件,如 PyTrace_CALL(函数调用)或 PyTrace_RETURN(函数返回)。混合方案:pyspy(采样) + cProfile(追踪) ,先用采样定位热点模块,再用追踪深入分析特定函数。代表工具:Python 的 cProfile、profile,Java 的 JProfiler(追踪模式)。
2025-06-16 17:53:20
1122
原创 Cursor 编程实践 — 开发环境部署
为了更方便地向 LLM 提供上下文信息,Cursor 内设了 @ 注记符,使用 @ Add Context 注记符能够方便地注入对应的上下文信息到 Chat 对话框中。Cursor IDE 是 VS Code 的一个分支,所以如果你已经在本地使用了 VS Code,那么可以直接导入 vscode 配置到 Cursor IDE 使用。例如:我现在有关于银行客户的数据样例,主要想做“银行信用:对银行客户的评分判别”分析,请帮我生成 python 代码并且分析。开箱即用:建议选择中文,方便打造个人习惯配置。
2025-06-11 18:48:13
1816
原创 AI Agent 与 Agentic AI 企业实践
标注过程中还需建立严格的质量控制机制,包括随机抽检、交叉验证和专家评审等多重保障措施,确保数据质量达到行业应用标准。高质量的标注数据不仅提升了Agent的专业表现,也为后续的模型微调提供了可靠基础。数据工程实施:核心在于构建高质量的专业知识库。知识库构建流程始于全面的原始数据采集,需综合考虑公开文献、行业标准和企业内部资料等多种数据源。技术架构设计:需要充分考虑业务特性和性能要求,典型的分层架构包括感知层、推理层、执行层和反馈学习层四个核心部分。如:客户服务智能助手。如:金融投资分析系统。
2025-06-07 10:32:13
1281
原创 AI Agent 与 Agentic AI 实现技术框架
AI Agent 协议的定义:本质是一个标准化的通信协议,定义了 Agent 之间以及 Agent 与外部系统之间的结构化通信的规则、格式和程序。作为系统的 “大脑”,结合领域适配的大模型与知识图谱,实现对复杂场景的理解和决策推理,例如在法律助手应用中,需要将最新法规与历史判例进行语义关联,支持类案推理;2024 年以来,随着 Multi-Agent 技术的成熟,涌现了一系列的 AI Agent 通信协议,包括:MCP、A2A、ANP、AP 等等。数据工程实施:核心在于构建高质量的专业知识库。
2025-06-07 10:10:36
1070
原创 AI Agent 与 Agentic AI 综述
智能体(Agent)是一种能够 “感知环境→理解输入→规划决策→执行反馈”,以此来实现特定目标的软件实体,它们超越传统自动化脚本,不再依赖固定流程,而具备一定程度的环境适应与智能行为。智能体具有 4 大基本能力,如下图所示。记忆:分为短期记忆和长期记忆。是理解能力的基础,理解能力是指智能体解读用户指令、理解任务目标的能力。最新研究如 MobileFlow 引入了 GUI Chain-of-Thought(CoT)技术,使模型能够像人类一样进行推理,从而更好地理解复杂任务。
2025-06-06 01:05:02
1189
原创 GPU 超级节点:AWS Trainium2 UltraServer
Trainium1 于 2020 年发布,使用 NeuronCore-v2 核心,是一款用于专注于 AI/ML 训练的加速芯片,支持 BF16 和 FP32 进行高精度训练,以及支持 TF32、FP16 和 INT8 以提高效率,还配备了专用的集合通信库芯片。可用于训练数十亿参数的大模型。2024 年,AWS 宣布了下一代 Trainium3 芯片,采用 3nm(纳米)制程,预计将比 Trainium2 提升 2 倍的性能,改善 40% 的能效,将于 2025 年底推出。所以,是的,这大约好 37.5%。
2025-05-19 00:34:02
2945
原创 英语口语错题集
解释:“Calling” is a verb or gerund, not a countable noun in this case. “Calls” is the correct plural noun for phone calls.解释:The subject “a person” already applies to both actions, so you don’t need to repeat “they need to”.解释:“Who talking” → “who talk”
2025-05-10 17:45:37
1141
原创 人工智能发展史 — 物理学诺奖之 Hopfield 联想和记忆神经网络模型
约翰·霍普菲尔德(John Hopfield)文学士、物理学博士,研究领域横跨物理学、分子生物学、神经科学、计算机科学,是一名以推动跨学科交叉融合而闻名于世的科学家,其推动了物理学与生命科学、人工智能的交叉融合,被誉为 “扩展统计物理学边界的先驱”,获得了 2024 年的物理学诺贝尔奖。霍普菲尔德早期是理论物理学家,专注于固体物理和量子力学,研究电子行为与能量状态,在激化子、长程电子输运等方面有极大的贡献。
2025-05-03 11:49:52
2705
原创 人工智能发展史 — MP 模型和感知机模型的数学模型与编程应用
这意味着用于描述样本的特征需要由专家设计,算法性能依赖于人工设计和抽取这些特征的准确度,以便使模型能够完成特定的任务,因此它的应用受到了很大的限制。其中,“阈值逻辑”、“Hebb 学习率”,前 2 个理论解决了单个神经元层面的建模问题,来自于对大脑神经元的生理学研究,共同构成了 “感知机” 的理论基础,在 1950s 提出;所以,和 MP 模型一样,感知机模型也是一个应用于线性分类场景的 “二分类” 分类器,训练的目标是找到一个超平面(例如:在二维空间中的超平面是一条直线),来将特征空间中的样本分为两类。
2025-04-26 02:43:41
1021
原创 案例分析:东华新径,拉动式生产的智造之路
客户对质量的吐槽:转向系统涉及汽车安全性关键,客户对产品质量要求极高,对故障率的态度是零容忍。产线对产量的吐槽:市场对产品的需求多变,生产线时而闲死,时而忙死,生产排班计划经常变化。生产计划是按月排的。后勤对仓库的吐槽:仓库需要提前一天备好物料,生产计划的频繁修改,让仓库备货手忙脚乱。仓库物料时按天备的。王总的吐槽:车间管理漏洞百出,东西乱摆乱放,小作坊现象严重。核心述求:如何确保产量的同时保证产品质量?产品质量问题根因追溯难、解决慢、成本高!生产计划跟不上市场订单的变化!
2025-04-11 23:58:19
1471
原创 AI 数理逻辑基础之统计学基本原理(上)
离散系数是一种 “无量纲” 的相对度量,公式如下,离散系数等于标准差除以均值,从而消除了量纲的影响,例如:1.4/6=0.23 和 14/60=0.23 之间的 CV 相同,但量纲相差了 10 倍。Pearson 用于测量 x 和 y 连续变量之间的线性相关性,但现实中存在大量非线性相关的数据集,但它们之间也会存在某种关联关系,如单调关系。掌握统计学的数据科学家或工程师,他们和具体的行业紧密相联,有扎实的统计基础,也有丰富的行业经验。通过海量数据进行分析,获得具有巨大价值的产品和服务,或深刻的洞见。
2025-04-04 23:58:42
1354
1
原创 联结主义人工智能发展史
核心思想是:认为人的智能归结为人脑的高层活动的结果,强调智能活动是由大量简单的单元通过复杂链接后并行运行的结果。弗兰克·罗森布拉特(Frank Rosenblatt)基于 MP 模型再进一步发明并在 IBM-704 计算机上实现了一种新的神经元数学模型,称为感知机模型(Perceptron),现在也将其称为一种单层神经网络,是神经网络和支持向量机的基础,作为早期神经网络研究的一个重要里程碑。即:感知机是二分类的线性模型,其输入的是实例的特征向量,输出的是实例的类别(+1 和 -1)。
2025-04-02 16:29:56
1090
原创 AI 算力的科学衡量与计算方式
在这些应用中,对于一些实时性要求较高的任务,如图形渲染、音视频处理等,单精度浮点数能够提供足够的精度,并且在存储和计算上更加高效,能够满足实时性和资源限制的需求。我们知道,计算机是以 0 和 1 构成的二进制数字进行运算的,比如在基础的二进制里,1 就是 1,2 就变成了 “10”,3 是 “11”。算力(Computational Power):指计算机系统的运算能力,涵盖了 CPU、GPU、TPU、NPU 等运算芯片的能力特征,算力决定了计算机处理信息的速度和效率,是评估计算机整体性能的重要指标。
2025-03-26 20:47:10
1623
原创 GPU/CUDA 发展编年史:从 3D 渲染到 AI 大模型时代(上)
要彻底搞明白 GPU 和 CUDA 的运行原理并不容易,而回顾技术的发展历史则是知其然且知其所以然的一个好方法,所以本文会使用篇年纪的方式进行写作。
2025-03-03 00:32:31
6189
3
原创 NCCL 分布式并行计算通讯库技术
NCCL(NVIDIA Collective Communication Library)集合通讯库,是 NVIDIA 为 AI 模型开发者提供的、专用于控制多张 GPU 之间进行高效通信的 lib 库,应用于分布式 GPU 训练场景。如下深度学习软件堆栈图所示。NCCL 的北向是 AI 模型开发框架 PyTorch、Paddle、TensorFlow 等,这些 AI 框架通过集成、调用 NCCL lib 库来控制 GPU 之间的数据通信方式。
2025-02-28 12:59:57
3142
原创 大规模 RDMA AI 组网技术创新:算法和可编程硬件的深度融合
对于上述问题,HPCC 的核心思想是利用 INT(In-Network Telemetry,在网遥测)技术来提供精确的链路负载信息,并以此来计算出准确的 Sender 速率更新数值,并且实践发现 HPCC 在大多数情况下仅需要 Sender 更新一次速率,而无需迭代更新。TIMELY 算法的核心思想是通过测量报文的 RTT(端到端往返时间)来动态调整 Sender 的发送速率,基于 RTT 的变化进行梯度计算,进而根据梯度实现了基于速率(rate-based)的调速方法。
2025-02-22 19:10:14
2050
中间人网络设备如何完成 TLS extensions 合法插入?
2021-04-08
女孩子做项目管理是什么体验?!:)
2021-03-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅