- 博客(1708)
- 资源 (3)
- 问答 (2)
- 收藏
- 关注
原创 AWS 云技术专栏系列文章
目录文章目录目录AWSAWS《2021 亚马逊云科技中国峰会,对话 “容器混合云会是未来的答案吗?”》《无处不在的 AWS 云计算》《全面解读 AWS Private 5G 的革新理念》《AWS — 重塑混合云》《AWS — VPN 虚拟专用云》《AWS — AWS Local Zone》《AWS — AWS Wavelength》《AWS — AWS Outposts》《AWS — AWS Direct Connect》《AWS — AWS EC2》《AWS — AWS ECS》
2022-04-05 17:34:25
5073
2
原创 软硬件融合加速技术系列文章
目录文章目录目录计算机组成原理Linux 操作系统原理处理器进程管理内存管理I/O 系统文件系统网络协议栈资源管理设备管理GPUFPGASmartNIC/DPU计算机组成原理《计算机组成原理 — 冯诺依曼体系结构》《计算机组成原理 — 基本硬件设备》《计算机组成原理 — CPU 中央处理器》《计算机组成原理 — 指令系统》《计算机组成原理 — 总线系统》《计算机组成原理 — 存储系统》《计算机组成原理 — 输入输出系统 — 存储控制器接口类型》《计算机组成原理 — 服务器》《计算机组成
2022-04-02 19:09:18
6423
原创 架构师之路系列文章
目录文章目录目录软件架构API 经济系统架构分布式系统分布式消息队列分布式任务队列高可靠要求高性能要求安全要求软件架构API 经济《架构师之路 — API 经济 — API 实现方式》《架构师之路 — API 经济 — RESTful API 设计规范》《架构师之路 — API 经济 — Web、HTTP Server、API Service、Application》《架构师之路 — API 经济 — Swagger & OpenAPI Specification》系统架构分布式系
2022-02-05 15:26:52
4086
4
原创 云计算与云原生技术系列文章
目录文章目录目录OpenStack IaaSKubernetes CaaSOpenShift PaaS云计算行业剖析云计算发展预测OpenStack IaaSKubernetes CaaSOpenShift PaaS云计算行业剖析云计算发展预测
2021-08-04 15:14:30
5286
6
原创 云网融合与算力网络系列文章
目录文章目录目录OvSDPDKVPPNeutronOvS《OpenFlow Switch 1.3 规范》《OpenvSwitch 架构解析与功能实践》《基于 Open vSwitch 的 OpenFlow 实践》DPDK《用户态网络协议栈还是内核协议栈?》《DPDK — 数据平面开发技术》《DPDK — 数据平台优化技术》《DPDK — 架构解析》《DPDK — 安装部署》《DPDK — PMD,DPDK 的核心优化》《DPDK — IGB_UIO,与 UIO Framework
2021-02-28 13:43:12
7981
7
原创 5G + 边缘计算系列文章
目录文章目录目录5GUENRNGCUE + NR + NGC边缘计算ETSI云边缘云网融合云边协同分布式云算力网络边缘原生OpenNESSKubeEdgeOpenYurtOthers5G《5G — 3 大场景、8 大 KPI》《5G 3GPP 标准》《5GC 关键技术 5G 专网》《5GC 关键技术之网络切片》《5GC 关键技术之本地分流》《5G 网络关键流程解读》UE《5G 需要换 SIM 卡吗?》NRNGC《5G NGC 系统架构》《5G 核心网的 UPF(User Plan
2020-12-26 01:21:27
12773
12
原创 OpenClaw 应用场景和 Skills 收集
一份文档,明确规定 AI 可以自主做哪些事,哪些事必须先问你。✅ 可直接执行:- 心跳检查、文件整理、日志归档、记忆维护❌ 需要你批准:- 发送外部邮件、执行金融操作、部署代码、删除数据核心价值: 清晰的边界让你信任 AI 自主运作,也让 AI 知道自己的「管辖范围」在哪里。每周根据 AI 的可靠性表现,可以扩展它的自主权。
2026-03-25 16:59:47
392
原创 OpenClaw 在企业办公场景中的 9 个岗位的应用场景
HR 是一个双重属性的岗位:一边要承接大量重复性执行工作,一边还要基于数据对比、深度分析,做出贴合组织需求的人才决策。:财务系统有账务数据,但银行流水与企业账目的核对往往是财务人员手动完成。:报销系统处理报销流程,但财务人员收到一堆发票图片需要整理时,系统可能不支持批量 OCR。:企业系统存储的是内部薪酬数据,外部市场薪酬数据需要 HR 自己搜索整理。:企业系统不会监控外部公司的人员变动,这是 HR 的主动情报工作。:财务系统有成本数据,但定制化的成本分析报告需要财务人员手动制作。
2026-03-25 15:07:09
330
原创 OpenClaw 指令大全
OpenClaw 支持通过 CLI 来索引和搜索你的 MEMORY.md 文件,让它记住重要信息。OpenClaw 有一套斜杠命令系统,在聊天里直接输入 / 开头的指令就能使用。首次使用时的配置向导。
2026-03-16 18:48:25
1042
原创 OpenClaw 的自动化能力实践案例
比如想抓取 https://example.com/article 的内容,只需要访问 https://r.jina.ai/https://example.com/article 即可,它就会返回干净的 AI 友好的 Markdown 格式内容,AI 读起来很舒服。KasmVNC 就是一个通过 VNC 协议的、基于网页的远程桌面服务,装上之后,你可以通过自己电脑的浏览器远程连接到云主机的桌面,直接看到 OpenClaw 正在操作的浏览器画面。本来是为开发者工具设计的,现在成了有头浏览器自动化的标准。
2026-03-15 23:28:13
945
原创 OpenClaw 总体架构技术拆解
可见 Channel 是轻量化的、驱动层化的,接入一个新的消息平台,只是多一个插件。你在Slack里讨论的工作内容、在 Telegram 里安排的日程、在 WhatsApp 里的个人对话,全部混在一起,形成了对你越来越完整的理解,以后完成任务也会越来越贴心。这个自我维护机制就把记忆给分层了,原始日志是短期记忆,每天的 MEMORY.md 是中期记忆,提炼出来的个性和喜好是长期记忆。在这里,token 的用量优化成为重要的考量,采用了 Skills 的架构,动态加载和技能相关的描述和细节。
2026-03-14 01:37:05
913
原创 Claude Code AgentTeams 技术原理与应用实践
AgentTeams 让多个 Claude Code 实例在同一个窗口中一起工作,它们都有独立的上下文窗口,彼此间可以互相通信、共享同一个任务目标,互相分工协作,甚至通过 “对抗式讨论” 来验证各自的判断。所以高质量的 CLAUDE.md 文件在 AgentTeams 中至关重要,这是所有 Agents 共享的 “员工手册”,定义了共同遵守的 “宪法”,比如代码目录架构、代码规范、架构决策和测试标准等等。当某个队友完成了其他任务所依赖的任务后,这些被阻塞的任务会自动解锁,不需要人工干预。
2026-03-09 17:29:19
1182
原创 AI Coding 新范式与方法和工具(人人都是开发者)
只要规则文档清晰、准确,AI 就能更稳定、更高效、更持久、更广泛地发挥。BMAD-METHOD(Breakthrough Method of Agile AI-Driven Development,敏捷 AI 驱动开发的突破性方法),是一套明确约束人和 AI 如何协作的开发方式。软件工程方法论,指用于指导、管理和执行 “软件需求、设计、开发、测试、交付、运维” 的过程的结构化方法、框架、原则和实践。并且,在 BMAD 的设计里,不要把 AI 当成 “万能助手”,而是把 AI 当成多个有分工的角色。
2026-03-02 18:04:23
1608
原创 Google 提示词工程最佳实践白皮书解读
优先采用描述动作的动词。例如:充当、分析、分类、归类、对比、比较、创建、描述、定义、评估、提取、查找、生成、识别、列出、测量、组织、解析、选择、预测、提供、排序、推荐、返回、检索、重写、选择、显示、排序、总结、翻译、写作。这对 Agent 而言很重要,因为生成更多的 token 意味着更多的算力消耗、成本和生成时间,而且 LLM 生成有时候会特别的啰嗦,完全是无效的浪费。根据目的和作用的不同,可以将 Prompt 分为以下几种类型,LLM API 可以认识这些 Prompt 的类型,并且执行相应的操作。
2026-02-14 23:17:29
773
原创 Claude Code 高级特性和应用实践
Claude Code 作为一个 Agent,本身就是一个 MCP Host,所以可以安装和管理 MCP Server 和 MCP Client,最终再通过 MCP Server 和真实的 Service Provider 进行交互。默认的,当你重新进入 Claude Code 时,默认会创建一个新的会话,在新会话中你看不到之前会话的历史记录。为了更好的区分不同的会话,还可以在进入会话之后输入指令。另外,LLM 的 Context Windows 是有限的,所以当一个会话的上下文太多了,可以执行指令。
2026-02-14 12:20:30
1460
原创 智能体 Skills 技术原理分析和应用
在 Agent 启动时,会将每个已安装 Skills 的 name 和 description 预先加载到其 System Prompt 中,使得 Agent&LLM 知道什么时候使用哪个 Skill,而不需要将这个 Skill 都加载到 Prompt 中,从而节省了 token。如下图所示,一个 Skills 的本质就是一个包含了 SKILL.md 文件的目录,其中包含了编写好的 Metadata、Instructions、Scripts、Resources 等内容。
2026-02-13 12:15:16
796
原创 将 OpenClaw 安全的运行在 MacOS 主力机上最大化提效
OpenClaw 很酷,大家都应该用起来。对于小白用户,建议使用云主机方式进行使用,月费几十块钱即可。对于程序员、IT 工程师,建议直接在主力机器上使用,以求效率最大化,前提是我们能够完全控制它。这篇文章讲得就是如何在主力机上安全的使用 OpenClaw。
2026-02-10 15:32:40
1648
1
原创 大模型调优训练技术解析(5)RLHF 强化学习微调
LLM 会不断根据 Pretrain 学到的基础知识和 SFT 学到的解题能力去解答练习,然后人类作为老师批改 LLM 的练习,来让 LLM 反思错误的解题方式,不断强化正确的解题方式。
2026-02-09 11:44:24
682
原创 大模型调优训练技术解析(4)有监督的微调
为了使 LLM 能够获得泛化的指令遵循能力,需要收集大量多种类型的 “指令-响应对” 来对 LLM 进行 SFT,同时也需要相对较大的指令数据量。所以严格的讲,针对 LLM 的 Multi-task SFT 采用的是 “指令微调” 方法,数据样本是由用户手动撰写的高质量 “指令-响应对”。如果要使 LLM 支持多轮对话,就需要在 SFT 时将指令数据样本构造为多轮对话的格式,目前绝大部分 LLM 均使用了多轮对话的指令数据样本来进行 SFT。
2026-02-09 11:43:14
694
原创 Transformer 大模型架构深度解析(5)ChatGPT 与 LLM 大语言模型技术解析
涌现能力是目前业界和学界对 LLM 保持较高的热情和关注的核心所在,即虽然 LLM 目前的能力、所能解决的任务与人类最终所期待的通用人工智能还存在不小的差距,但在涌现能力的作用下,我们相信随着研究的不断深入、高质量数据的不断涌现和更高效的模型架构及训练框架的出现,LLM 终能具备通用人工智能所需要具备的能力,从而给人类生活带来质变。使其成为了一个更通用的模型,适用于更广泛的应用,包括但不限于文本生成、翻译、摘要、问答、编程辅助等,还增加了对于长文本的处理能力和更好的泛化能力。
2026-01-29 16:24:33
1095
原创 Transformer 大模型架构深度解析(4)详解 Transformer 架构
例如:句子 The animal didn’t cross the street because it was tired,其中 it 和 animal 的关联必然最大,其权重也最大,it 的语音单元必然包含 animal 的信息,如此的 Decoder 就知道了代词 it 指代的是名称 animal 而不是其他词,翻译为 “动物”。由于深度神经网络中每一层的输入都是上一层的输出,因此多层传递下,对网络中较高的层,之前的所有神经层的参数变化会导致其输入的分布发生较大的改变。
2026-01-28 14:23:05
1438
原创 Transformer 大模型架构深度解析(2)RNN 循环神经网络模型在 NLP 中的应用
值得注意的是,Sequence Model 的 “历史记忆” 和 Hopfield Network 的 “联系记忆” 有本质的区别,“联想记忆” 并不适用于处理序列数据,而 “历史记忆” 的目标是发现序列数据中的模式和依赖关系,从而进行预测、分类,甚至生成新的序列。如下图所示,RNN 和 FFN 结构的主要区别就是 RNN 引入了一个循环结构,RNN 在每个时间步(t)处理一个序列元素时,不仅会接收当前的输入,还会接收来自上一个时间步(t-1)的隐藏状态(Hidden State)。
2026-01-21 12:26:12
861
原创 Transformer 大模型架构深度解析(1)NLP 自然语言处理文本表示方法
文本摘要(Text Summarization)就是根据文本内容生成一段简洁准确的摘要,来概括原文的主要内容。抽取式摘要(Extractive Summarization):通过直接从原文中选取关键句子或短语来组成摘要。优点是摘要中的信息完全来自原文,因此准确性较高。然而,由于仅仅是原文中句子的拼接,有时候生成的摘要可能不够流畅。生成式摘要(Abstractive Summarization):不仅涉及选择文本片段,还需要对这些片段进行重新组织和改写,并生成新的内容。
2026-01-21 12:19:25
967
原创 大模型调优训练技术解析(1)训练方法与数据集技术
Hugging Face(https://huggingface.co/)和魔塔社区(https://www.modelscope.cn/home)是著名的 2 个开源模型和开源数据集的网站,此外还有 OpenDataLab(https://opendatalab.com/)、智源数据平台(https://data.baai.ac.cn/dataset)等等,我们可以在这些网站上下载许多知名的开源数据集。通常的,我们需要考虑数据集采样配比的问题,将不同类型的数据(如新闻、百科、代码等)按合理比例混合。
2026-01-16 12:56:08
827
原创 大模型分布式训练框架 Megatron-LM
数据预处理:Megatron-LM 提供了 preprocess_data.py 预处理脚本,将原始文本数据转换为 Megatron-LM 所需的 token 化二进制格式,支持高效加载。DeepSpeed 的核心技术是 ZeRO 技术,它可以克服数据并行和模型并行的局限性,同时实现两者的优点,它是将模型划分为状态参数、梯度、优化器状态来降低内存冗余,提升显存利用率。以 GPT 为例,模型参数包括。注意,多机训练的时候,启动容器时不能指定 --net host,会导致 NCCL 通信时报错。
2026-01-10 06:49:46
1384
原创 vLLM 大模型推理实践
所以在本文的推理实践中采用了 NVIDIA 官方发布的 NVFP4 量化模型 nvidia/Qwen3-30B-A3B-NVFP4,总参数量 30B、单次激活参数量 3B 的 MoE 模型,可以最大化发挥硬件的内存与算力优势,是 PGX 的理想应用场景。在模型开发的日程工作中离不开性能剖析的工作,尤其是 Nsight System 和 Nsight Compute 这两款 NVIDIA 性能剖析工具的使用,这些工具都被预先安装在 PGX 上了,我们可以方便的通过 GUI 桌面进行使用。
2026-01-10 05:10:38
1032
原创 LLaMA-Factory 大模型微调平台
微调是指在已经训练好的大型预训练模型的基础上,进一步训练该模型以适应特定任务或特定领域的数据。尽管完全微调可以对模型的能力进行深度改造,但要带入模型全部参数进行训练,需要消耗大量的算力,且有一定的技术门槛。由于微调需要消耗大量的显存,因此参数规模超过 30B 的大模型往往无法在 32GB 消费级 GPU 上运行,但却可以轻松在拥有 128GB UMA 的 PGX 上随时进行。其中,GGUF 是大模型的存储格式,可以对模型进行高效的压缩,减少模型的大小与内存占用,从而提升模型的推理速度和效率。
2026-01-10 05:06:36
1164
原创 大模型分布式训练框架 DeepSpeed
例如下边示例图左边的 Self-attention 模块,通过对比分析后得出,对 Self-attention 这块做重算的收益是非常高的,因为它的计算量相对会少一点,但它的一些中间结果输出占用的显存开销非常大。如上述,相比 FP32,FP16 可将显存占用减半,计算速度提升 2~3 倍。为了解决内存开销大的问题,微软提出了 ZeRO,可以根据不同的程度充分将优化器状态(os)、梯度(g)和模型参数(p)切分到所有的 GPU 中,也就是不同的 DP Group 中会存储不同的优化器状态、梯度和参数切片。
2026-01-06 20:45:52
2750
原创 大模型性能优化方向
例如下边示例图左边的 Self-attention 模块,通过对比分析后得出,对 Self-attention 这块做重算的收益是非常高的,因为它的计算量相对会少一点,但它的一些中间结果输出占用的显存开销非常大。其次,使用比较多的是 Zero-2 和Zero-3。为了解决内存开销大的问题,微软提出了 ZeRO,可以根据不同的程度充分将优化器状态(os)、梯度(g)和模型参数(p)切分到所有的 GPU 中,也就是不同的 DP Group 中会存储不同的优化器状态、梯度和参数切片。
2026-01-05 17:28:50
912
原创 GPU 性能分析工具综述
在 nv-hostengine 和 GPU Driver 的追踪(Tracing)方面,以秒为单位,nv-hostengine 与 GPU Driver 接口交互用于收集 GPU 的指标,包括:SM 利用率、内存利用率、温度、功耗、时钟速度、ECC 内存错误、PCIe 吞吐量、NVLink 吞吐量等。最后,还实现了 CPU 和 GPU 两端事件的统一聚合与同步,两者通过高效的内核态 ring buffer 进行合并与关联,确保追踪过程中数据和时间戳的一致性和低延迟。具有非常低性能开销,并且是完全无侵入的。
2026-01-04 17:02:19
869
原创 模型训练资源需求计算公式
我们知道分布式训练 HPN 中有 2 个网络,在先进 HPN 网络设计中,通常会把计算和存储这 2 个 RDMA 网络进行隔离,避免彼此之间的带宽抢占,所以需要区别讨论。计算网络场景:all-reduce 进行梯度聚合,通信量由模型的参数大小和运算精度决定。存储网络场景:DP Dataloader 加载 batch 样本数据,通信量由 DP Group 数量和 Batch size 决定。这里我们主要讨论计算网络的带宽资源需求问题。每 Step 通信次数。
2025-12-19 22:34:37
1104
原创 人工智能发展史 — NLP 与 RNN/LSTM/Transformer/GPT 序列模型发展历程
2020年10月22日,Google团队发表An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,提出了Vision Transformer(ViT),虽然不是第一篇将Transformer应用在视觉任务的论文,但是因为其模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域应用的里程碑著作,也引爆了后续相关研究。引起了全球学术界和工业界的大语言模型热潮。
2025-12-11 21:13:49
1270
原创 使用 Nsight Compute 来优化 CUDA 程序性能
以秒为单位,nv-hostengine 与 GPU Driver 接口交互用于收集 GPU 的指标,包括:计算利用率、内存利用率、温度、功耗、时钟速度、ECC 内存错误、PCIe 吞吐量、NVLink 吞吐量等,具有非常低的开销。Nsight Compute 广泛地对 GPU 硬件性能计数器进行数据采集,ncu 使用了 CUPTI 的 Event API、Metric API 和 CUDA Profiling API 来计算 GPU 所执行的指令、内存事务、warp 占用率等事件。
2025-12-11 12:22:07
1280
原创 大模型预训练分布式并行技术(DP/PP/TP/EP/SP)基本原理
但是对于比较小的模型,或者细粒度的 MoE 模型,其矩阵乘法的 Shape 本身比较小,TP 切分后对算术强度的影响比较大,会导致吞吐的明显下降,无法充分发挥 GPU 的性能,因此在细粒度 MoE 模型的专家部分比较少采用 TP 并行。每块 GPU 执行 all-reduce 操作,收集所有 GPU 中的 local-gradient 梯度结果,然后进行求和求平均(归约)后得到一次迭代计算最终的有效 global-gradient,最后再同步到所有的 GPU 上并进行 Weights 权重参数的更新。
2025-11-20 15:00:33
1580
原创 MPI 分布式并行计算通讯库技术
如果说 MPI 进程是一个计算概念,那么 MPI 进程组就是一个通信概念,表示若干个能够进行跨节点间 MPI 通信的一组 MPI 进程。关卡),在并行计算中,需要在最后将所有并行计算的子结果进行汇总,而快的进程就会在 Barrier 分界线上等待慢的进程完成计算,直到所有进程都完成了计算之后在进行下一步操作,所以也称之为同步等待。:用于描述 MPI 进程之间的通信范围,也称之为通信域,同时还记录了 MPI 进程组内或组外的 MPI 进程之间的通信拓扑和通信信息。将一个进程的数据分散到多个进程中。
2025-11-16 19:53:47
1237
原创 PerfTracker 论文解析与实践
PerfTracker 会展示所有对任务性能有一定影响的函数的性能报告,并指示是否有性能异常。不同类型的函数会按如下分类进行展示,具体见官方文档。将汇总后的数据,分别交由不同类别 extractor 解析,计算出函数对应 bottleneck 值,将汇总后数据写入汇总后文件。传统的 LMT 性能诊断有 “在线监控” 和 “离线剖析” 这 2 种方式,但这两种方法在 LLM 场景中都不理想。100 微秒精度的 GPU、NVLink、PCIe、DRAM 等硬件的各种指标监控信息。
2025-11-05 12:09:56
917
原创 智能体 MCP 协议技术原理与应用实践
定义:是一个独立的、轻量的、作为 MCP Client 的服务器程序,同时也作为外部系统的前端程序,为 LLM 提供数据访问、工具执行和服务调用的能力。目前有多个开源库或网站提供了托管的 MCP 工具资源,用于增强 LLM 和 Agent 的能力,确保其生成响应的可靠性。Prompts 是 MCP Server 为 Resources、Tools 或特定使用场景所提供的提示词模板,支持参数化渲染和复用,帮助 LLM 生成特定类型的响应,例如:可以设计成多步骤的逻辑链,引导用户完成复杂的任务。
2025-10-15 11:31:58
1116
中间人网络设备如何完成 TLS extensions 合法插入?
2021-04-08
女孩子做项目管理是什么体验?!:)
2021-03-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅