Tassel_YUE-CSDN博客

原创 TP、PP 的计算和推荐取值（随手记）

TP：一层内部横着切，通信多，适合单机。PP：模型层之间竖着切，适合跨机，但存在流水线等待。默认先 PP=1，然后增加 TP；TP 到达单机上限后，再增加 PP。

2026-06-22 08:18:55 310

原创 CentOS7修改yum源并安装docker的步骤（随手记）

今天为了在centos7上跑docker测试，特意记录了一下步骤，以便后续参考。

2026-06-16 09:13:32 214

原创超节点技术深度篇五：长上下文推理与 KV Cache 池化：从显存压力到 PD 分离调度

长上下文推理把推理系统从无状态服务推向有状态服务，而KV Cache是这个状态的核心。Prefill 负责生成 KV Cache，Decode 负责反复读取 KV Cache。PD 分离让两类资源可以分别优化，但也引入了 KV Cache 传输和缓存位置管理。CXL、远程内存和资源池化可以缓解容量压力，却不能替代 HBM 的热路径价值。因此，超节点在推理侧的意义不是“把推理也堆大”，而是提供一个高带宽、低时延、可统一编址、可调度的资源域，让缓存、计算和网络可以一起被管理。

2026-05-26 18:00:00 560

原创超节点技术深度篇六：超节点工程化技术：从无损网络、RAS 到任务级可观测性

摘要：超节点工程化是AI基础设施稳定运行的关键，涉及可靠性分层设计（器件、链路、系统、任务）、无损网络技术（PFC/ECN/FEC等）和拓扑感知调度。故障模型需按任务影响路径分析，而非简单硬件状态。华为、中兴、H3C报告指出，超节点运维需融合硬件监控与训练指标，实现秒级故障隔离与自愈。重点包括：通过RAS机制应对万级处理器故障常态，通过训前巡检降低环境风险，以及调度器需理解模型并行结构（TP/EP/DP组）与链路健康状态，避免因拓扑错误导致性能下降。最终目标是保障长周期训练任务的高效执行，而非单次benc

2026-05-26 14:09:20 399

原创超节点技术深度篇四：MoE 与在网计算：从专家路由、All-to-All 到交换芯片卸载

摘要本文基于华为、中兴、H3C的技术报告，深入分析MoE（混合专家）模型在超节点系统中的通信瓶颈。MoE通过动态路由token到不同专家子网络，虽然节省计算量，但引入了复杂的All-to-All通信问题。关键发现包括：单层MoE至少包含Dispatch和Combine两段跨设备通信路径； EP（专家并行）扩大后，专家计算压力下降，但token交换量增加，热点专家会导致网络拥塞和尾时延；超节点的高带宽域应优先服务动态路由和结果聚合流量；在网计算可卸载部分集合通信操作，如All-Reduce和MoE的D

2026-05-22 07:51:49 418

原创超节点技术深度篇三：大模型并行通信拆解：DP、TP、PP、EP、CP 到底在网络里发生了什么

DP 关注大流量归约和分层通信。TP 关注层内高频低时延。PP 关注阶段通信和流水线气泡。EP 关注 All-to-All、热点和尾时延。CP/SP 关注长序列下通信、缓存和内存协同。超节点的价值，就是让训练平台可以把这些通信放到合适的网络层里，而不是让所有流量都挤在同一张网络上。

2026-05-22 07:36:12 459

原创技术深度篇二：超节点里的统一内存编址：从 RDMA、DMA 到 Load/Store 语义

超节点技术推动统一内存编址与资源池化发展摘要：本文基于华为、中兴、H3C的技术报告，分析了超节点架构中统一内存编址的关键技术演进。超节点通过超大带宽（提升15倍）和超低时延（降至200纳秒）互联，实现了从高速通信到统一地址空间的跨越。报告指出，统一内存编址需要解决地址层（全局寻址）、访问层（DMA/RDMA/Load-Store多语义）和管理层（资源调度）三大问题。CXL技术在此过程中扮演重要角色，不仅支持设备互联和内存扩展，更通过Fabric架构实现内存资源池化，为AI负载提供分层内存支持（HBM→DD

2026-05-19 19:45:00 531

原创超节点技术深度篇一：超节点的 Scale-Up 互联到底解决了什么？从 HBD、拓扑到带宽墙

摘要本文探讨了AI超节点中Scale-Up互联的技术价值，指出传统Scale-Out集群在处理大模型高频通信时的局限性。超节点通过构建高带宽域（HBD），将强耦合通信（如张量并行、专家并行）限制在机柜级紧耦合系统内，缓解跨服务器网络的带宽断层问题。分析表明，评估Scale-Up方案需综合考量单卡带宽、时延、拓扑跳数、收敛比等指标，而非仅关注总带宽。华为、中兴、H3C的技术报告均强调，超节点的核心在于通过硬件结构、信号链路与软件协同，实现通信流量的分层优化，从而提升大模型训练效率。

2026-05-19 18:00:00 487

原创超节点文章 6：超节点走向智算中心：液冷、供电、运维和 AI 工厂

本文基于华为、中兴、H3C三份技术报告，探讨超节点在智算中心落地面临的系统性挑战。超节点不仅是GPU/NPU的堆砌，而是涉及算力层、互联层、工程层、软件层、运维层和成本层的整体解决方案。高密度算力推动液冷成为标配，供电系统需升级至高压直流，整柜交付要求机房改造。运维体系需从被动修复转向主动预防，RAS能力直接影响训练成本。最终，AI生产将从项目制转向标准化Token输出，竞争核心将聚焦单位Token成本和绿色化。超节点的价值在于将高密度算力与高速互联、资源池化及智能运维结合，实现AI生产的规模化与高效化。

2026-05-18 18:45:00 366

原创超节点文章 5：华为、中兴、H3C 三份报告对比：超节点路线到底有什么不同？

三份报告都讲超节点，但定义侧重点不同。报告定义侧重可以怎样理解华为AI 时代核心计算单元超节点是突破单机边界、支撑大模型训练推理的新型算力单元中兴高带宽域 HBD超节点是通过高速互联和专用交换芯片构建的紧耦合 GPU 协同域H3C机柜级紧耦合算力单元超节点是资源池化、统一内存语义和一体化基础设施构成的系统华为的定义偏产业和体系结构。它强调超节点把数十、数百甚至更多 AI 处理器组织成一个逻辑统一的计算体，并具备大带宽、低时延、统一内存编址、资源池化和可靠性能力。中兴的定义偏。

2026-05-18 18:30:00 567

原创超节点文章 4：MoE、长上下文与智能体：哪些 AI 负载最需要超节点？

**摘要：本文基于华为、中兴、H3C的技术报告，探讨超节点技术在AI任务中的适用场景。研究表明，超节点并非适用于所有AI任务，而是更适合通信密集、内存密集、并行关系复杂且对延迟敏感的负载场景。文章重点分析了MoE模型、长上下文推理、PD分离架构和智能体应用等典型场景如何放大超节点的价值，指出超节点通过高带宽互联和资源池化能力，能有效解决GPU/NPU间的协同效率问题。同时强调超节点规模需平衡性能收益与成本边际效应。

2026-05-18 18:00:00 498

原创超节点文章 3：超节点的核心技术：高速互联、统一内存编址与在网计算

超节点技术解析：大模型训练的关键基础设施摘要：超节点作为大模型训练的核心计算单元，通过四层技术能力实现多芯片紧耦合协同：1）高速互联（TB级带宽协议），突破传统PCIe/RDMA限制；2）统一内存编址，将分布式内存抽象为全局地址空间；3）在网计算，将通信计算卸载至交换芯片；4）软件栈协同，优化框架与硬件映射。三大厂商报告显示，超节点正推动AI基础设施从Scale-Out向Scale-Up演进，通过OEX正交互联、CXL内存池化、UALink开放协议等技术，显著降低通信时延和调度损耗，特别适用于MoE训练、

2026-05-18 17:15:00 369

原创超节点文章2：从 Scale-Out 到 Scale-Up：大模型训练为什么需要新的算力组织方式？

摘要：超节点技术通过融合Scale-Up（纵向扩展）和Scale-Out（横向扩展）解决大模型训练的通信瓶颈。传统数据中心依赖Scale-Out堆叠服务器，但大模型训练需要高频协同计算，跨节点通信时延和带宽成为瓶颈。超节点通过构建高带宽域（HBD），将更多加速芯片紧密互联，减少跨服务器通信开销，同时保留Scale-Out的集群扩展能力。行业趋势显示，超节点正推动协议融合与拓扑创新（如CLOS、DragonFly），以平衡带宽、时延与成本，实现高效的大规模AI算力协同。

2026-05-18 16:30:00 849

原创超节点文章1：超节点是什么？为什么 AI 时代越来越需要它？

摘要：随着AI大模型进入万亿参数、长上下文、多模态等新阶段，传统“堆GPU”的算力架构面临通信、内存和复杂度三大瓶颈。超节点通过高速互联、统一内存编址、资源池化和软硬件协同，将多颗AI芯片整合为高密度算力单元，显著提升大模型训练与推理效率。其核心优势在于：1）构建更大高带宽通信域，降低跨设备时延；2）实现统一内存访问，突破单卡显存限制；3）支持动态资源调度，适配多样化AI负载；4）强化系统可靠性。超节点不仅是硬件升级，更是从Scale-Out到Scale-Up的范式转变，为万亿参数模型、MoE架构及长上下

2026-05-18 12:00:48 524

原创分享 5 折购买官方 GPT PLUS会员的方法全流程

通过土耳其区Apple ID购买GPT Plus会员可节省费用（约80-90元人民币）。方法包括：1）注册土区Apple ID（需土耳其身份信息）；2）通过Oyunfor等平台购买土耳其区苹果礼品卡充值（约515里拉兑换500里拉）；3）在App Store下载ChatGPT并使用余额开通Plus会员。需注意支付时填写土耳其地址，且礼品卡仅限土区使用。

2026-05-11 13:32:50 10036 2

原创小米 MiMo Token Plan 接入 Trae 404 解决方案

文章说明了在 Trae 中接入小米 MiMo Token 计划时出现 HTTP 404 的原因与解决方法。按官方文档填写 OpenAI 兼容配置时，如果自定义 Base URL 只填 `https://token-plan-cn.xiaomimimo.com/v1`，Trae 会直接将其作为完整请求地址发送，不会自动拼接 `/chat/completions`，因此返回 openresty 404。解决办法是将地址改为完整接口：`https://token-plan-cn.xiaomimimo.com/v1

2026-05-11 08:38:28 1501 3

原创小米 MiMo 百万亿 Token 活动怎么申请？逐步填写指南 + 高额度申请思路

最近小米 MiMo 开放平台的很火。这个活动不是普通注册送额度，而是面向 AI Builder、开发者、创作者、Agent 工具用户发放免费 Token 权益。活动总池子为权益，采用申请制，审核通过后会根据使用场景匹配不同档位。公开信息显示，最高可获得 Max 档 Token Plan，包含 16 亿 Credits，价值 659 元。

2026-05-09 21:52:11 4173

原创更换 OpenClaw API Key 为硅基流动 Siliconflow 的方式

本文介绍了在OpenClaw中使用硅基流动API的配置方法。首先需注册硅基流动账号并获取API Key，确认接口地址和模型名称。配置方法有两种：一是通过命令行设置API参数和模型列表，包括指定baseUrl、apiKey及多个模型ID；二是直接修改配置文件（openclaw.json），添加硅基流动的provider配置和模型参数。两种方法最后都需要重启gateway服务，并通过命令验证模型是否配置成功。关键注意事项包括保持API地址格式正确、模型ID需与模型广场一致，建议先配置到fallbacks以防错误

2026-02-27 19:59:02 6378 2

原创 OpenClaw 使用云主机Ubuntu部署以及对接飞书进行对话全流程保姆级教程

目前OpenClaw 作为2026年AI届最热门的明星开源项目，引发了国内外的很大讨论热度。国内的多家云厂商，如阿里云、腾讯云、火山云都在过年前跟进了一键安装部署OpenClaw的云主机配套方案。这个热度上次还是口罩时期的多人联机游戏《幻兽帕鲁》恰好我有一台在上海可用区的云主机，也来凑个热闹，部署一下 OpenClaw，并且对接飞书，凑个热闹。在飞书中，找到这个机器人，然后进行对话由于我们之前选择的权限是 open，所以不需要配对就可以使用。

2026-02-27 18:55:51 4848

原创 TiDB 2026 上海站活动观后碎碎念

中国AI与科技企业出海趋势及应对策略本次活动围绕中国企业出海展开讨论，36氪副总裁谢作强分析了五大趋势：从模式输出转向技术溢出、AI双重赋能、供应链协同出海、跨区域能力提升及合规重视度提高。他建议企业聚焦产品竞争力、数字化能力和深度本土化。亚马逊云科技安全合规经理江学森则指出数据跨境传输、AI监管差异等行业合规挑战，并分享了亚马逊的合规支持方案。此外，亚马逊架构师沈金探讨了AI在企业级应用中的发展趋势。活动通过专业分享和圆桌讨论，为企业出海提供了战略指导和资源支持。

2026-01-13 14:31:53 754

原创什么是functioncall，mcp，skills？一文作简单解析（随手记）

本文参考作者 Erlich 对于目前AI技术演进的视频解说，通过Get笔记整理而来。意在梳理目前有关于大模型演进史，从对话到function call，再到mcp，agent sdk，直至如今skills的基础认知。

2026-01-09 23:43:28 684

原创什么是VLAN修剪（随手记）

如果没有VLAN修剪，交换机A会把VLAN 10、20、30的流量都发给B，即使B根本不需要VLAN 30的流量。VLAN修剪就是：在Trunk链路上“只放行有用的VLAN”，把没用的VLAN流量挡掉，省带宽、减广播、提安全。启用VLAN修剪后，Trunk链路只转发VLAN 10和20的流量，VLAN 30的流量被“剪掉”了。VLAN修剪 = 在Trunk链路上“剪掉”不需要的VLAN流量，只保留必须的VLAN。假设你有交换机A和交换机B，通过Trunk链路连接。

2026-01-09 00:07:43 317

原创 OLT设备介绍

OLT（光线路终端）：是无源光网络（PON）中的局端核心设备，位于运营商机房或大型企业网络中心，负责终结光纤主干并管理用户端设备。

2025-12-29 22:31:46 909

原创 Gemini 3 pro 体验，太强大了（附带生成的代码）

Google Gemini 3 Pro展示了强大的AI编程能力，通过实例演示了其响应复杂Prompt的能力。用户请求开发一个完整的双人黑八台球HTML游戏，Gemini不仅生成了完整的游戏代码，还解决了初始版本的两个关键问题：1）支持鼠标超出桌面区域的大力度击球操作；2）修复进球后无法继续操作的问题。生成的代码包含物理引擎、游戏状态管理和UI交互，可直接保存为HTML文件运行。该案例展示了Gemini在理解复杂需求、调试代码方面的出色能力，为AI辅助编程提供了有力证明。

2025-11-19 20:49:50 1174

原创天翼云 ECS 弹性云主机的IP地址无法访问，无法访问 ECS 的网站，解决方案（随手记）

作者在ECS上部署服务时发现80/443等端口无法访问，检查安全组和端口配置均无问题。经天翼云客服提示才知，自去年11月起80/8080/443/8443端口需备案才能使用，而此前仅需安全组放行。建议遇到类似问题时直接更换端口。

2025-11-09 22:56:34 373

原创 CPU QoS CPU资源份额 CPU 资源预留 CPU 资源限额三个名词解释（随手记）

本文介绍了华为FusionCompute虚拟化平台中的CPU QoS技术，主要包括三个关键参数：CPU资源份额、预留和限额。CPU份额按比例分配计算资源，预留值保证最低计算能力，限额则控制资源占用上限。通过竞争和非竞争场景的实例说明，展示了虚拟机在不同负载情况下如何动态分配CPU资源。该技术能有效隔离虚拟机间的性能干扰，平衡资源分配，提高资源利用率并降低成本。需要注意的是，本文内容仅适用于华为FusionCompute平台。

2025-10-24 11:38:53 1128

原创 GOPS 2025 上海站观后碎碎念

本文分享了作者参加GOPS 2025全球运维大会上海站的见闻与收获。会议聚焦运维领域，涵盖金融类、SRE稳定性、可观测性、AIOps等多个分论坛。作者重点记录了三个主题分享：1）运维知识库构建方案，提出结构化三步法解决传统RAG局限性；2）B站推荐系统稳定性实践，分析推荐技术演进与治理方案；3）网易复杂系统稳定性思考，强调日常变更管理的重要性。整体来看，AI技术正从概念讨论转向实际应用，LLM和Agent技术正逐步赋能运维领域。作者认为当前落地案例仍属试点性质，但对未来AI与运维的深度融合充满期待

2025-10-20 13:15:45 1140

原创在国内使用claude code，实操可行（随手记）

本文介绍了如何通过Code Router平台直接使用Claude Code进行编程。首先需要注册账号（可使用Github账号），新用户可获得200美元试用额度。注册后按照教程配置环境，Mac用户需执行提供的shell脚本安装Node.js和npm环境。该脚本会自动检测操作系统并完成前置环境准备，支持Linux和macOS系统。通过这种方式，用户无需翻墙即可体验Claude Code或Codex等大模型API服务。

2025-09-29 00:10:46 2047 1

原创云扫盲：云防火墙与云 WAF 的对比

云防火墙与WAF对比摘要：云防火墙（CFW）是网络层防护服务，管控互联网/VPC/主机边界流量，防御DDoS等网络攻击；WAF专注应用层，防护SQL注入、XSS等Web威胁。二者在防护层级（OSI 3-4层 vs 7层）、部署位置（网络边界 vs 应用前端）和核心功能（流量管控 vs HTTP协议解析）存在显著差异。实际部署中，阿里云采用串行模式（先WAF后防火墙），AWS等则分层防护。建议企业结合业务需求，构建纵深防御体系。

2025-09-17 10:20:56 1693

原创光功率dBm为何是负数？一文详解

本文深入浅出地讲解了光通信中dBm和dB的概念与应用。dBm作为绝对单位表示光功率，0dBm对应1毫瓦，负数表示小于1毫瓦的功率；dB则是相对单位表示光功率损耗。文章通过数学公式和对数运算原理，解释了为什么采用对数单位能简化复杂的功率计算，将乘除运算转换为简单的加减运算。此外，还详细介绍了光功率衰减的计算方法、常见标准值，并提供了实际应用场景中的诊断方法，包括OTDR曲线分析、网络设备光功率检测标准以及家庭光纤网络的质量评估标准。全文系统性地阐述了光通信功率测量的关键概念，为工程技术人员提供了实用的参考指南

2025-08-11 23:46:51 5136

CX320 交换模块 V100R001 配置指南 13

空空如也