自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(179)
  • 收藏
  • 关注

原创 TP、PP 的计算和推荐取值(随手记)

TP:一层内部横着切,通信多,适合单机。PP:模型层之间竖着切,适合跨机,但存在流水线等待。默认先 PP=1,然后增加 TP;TP 到达单机上限后,再增加 PP。

2026-06-22 08:18:55 310

原创 CentOS7修改yum源并安装docker的步骤(随手记)

今天为了在centos7上跑docker测试,特意记录了一下步骤,以便后续参考。

2026-06-16 09:13:32 214

原创 超节点技术深度篇五:长上下文推理与 KV Cache 池化:从显存压力到 PD 分离调度

长上下文推理把推理系统从无状态服务推向有状态服务,而KV Cache是这个状态的核心。Prefill 负责生成 KV Cache,Decode 负责反复读取 KV Cache。PD 分离让两类资源可以分别优化,但也引入了 KV Cache 传输和缓存位置管理。CXL、远程内存和资源池化可以缓解容量压力,却不能替代 HBM 的热路径价值。因此,超节点在推理侧的意义不是“把推理也堆大”,而是提供一个高带宽、低时延、可统一编址、可调度的资源域,让缓存、计算和网络可以一起被管理。

2026-05-26 18:00:00 560

原创 超节点技术深度篇六:超节点工程化技术:从无损网络、RAS 到任务级可观测性

摘要: 超节点工程化是AI基础设施稳定运行的关键,涉及可靠性分层设计(器件、链路、系统、任务)、无损网络技术(PFC/ECN/FEC等)和拓扑感知调度。故障模型需按任务影响路径分析,而非简单硬件状态。华为、中兴、H3C报告指出,超节点运维需融合硬件监控与训练指标,实现秒级故障隔离与自愈。重点包括:通过RAS机制应对万级处理器故障常态,通过训前巡检降低环境风险,以及调度器需理解模型并行结构(TP/EP/DP组)与链路健康状态,避免因拓扑错误导致性能下降。最终目标是保障长周期训练任务的高效执行,而非单次benc

2026-05-26 14:09:20 399

原创 超节点技术深度篇四:MoE 与在网计算:从专家路由、All-to-All 到交换芯片卸载

摘要 本文基于华为、中兴、H3C的技术报告,深入分析MoE(混合专家)模型在超节点系统中的通信瓶颈。MoE通过动态路由token到不同专家子网络,虽然节省计算量,但引入了复杂的All-to-All通信问题。关键发现包括: 单层MoE至少包含Dispatch和Combine两段跨设备通信路径; EP(专家并行)扩大后,专家计算压力下降,但token交换量增加,热点专家会导致网络拥塞和尾时延; 超节点的高带宽域应优先服务动态路由和结果聚合流量; 在网计算可卸载部分集合通信操作,如All-Reduce和MoE的D

2026-05-22 07:51:49 418

原创 超节点技术深度篇三:大模型并行通信拆解:DP、TP、PP、EP、CP 到底在网络里发生了什么

DP 关注大流量归约和分层通信。TP 关注层内高频低时延。PP 关注阶段通信和流水线气泡。EP 关注 All-to-All、热点和尾时延。CP/SP 关注长序列下通信、缓存和内存协同。超节点的价值,就是让训练平台可以把这些通信放到合适的网络层里,而不是让所有流量都挤在同一张网络上。

2026-05-22 07:36:12 459

原创 技术深度篇二:超节点里的统一内存编址:从 RDMA、DMA 到 Load/Store 语义

超节点技术推动统一内存编址与资源池化发展 摘要:本文基于华为、中兴、H3C的技术报告,分析了超节点架构中统一内存编址的关键技术演进。超节点通过超大带宽(提升15倍)和超低时延(降至200纳秒)互联,实现了从高速通信到统一地址空间的跨越。报告指出,统一内存编址需要解决地址层(全局寻址)、访问层(DMA/RDMA/Load-Store多语义)和管理层(资源调度)三大问题。CXL技术在此过程中扮演重要角色,不仅支持设备互联和内存扩展,更通过Fabric架构实现内存资源池化,为AI负载提供分层内存支持(HBM→DD

2026-05-19 19:45:00 531

原创 超节点技术深度篇一:超节点的 Scale-Up 互联到底解决了什么?从 HBD、拓扑到带宽墙

摘要 本文探讨了AI超节点中Scale-Up互联的技术价值,指出传统Scale-Out集群在处理大模型高频通信时的局限性。超节点通过构建高带宽域(HBD),将强耦合通信(如张量并行、专家并行)限制在机柜级紧耦合系统内,缓解跨服务器网络的带宽断层问题。分析表明,评估Scale-Up方案需综合考量单卡带宽、时延、拓扑跳数、收敛比等指标,而非仅关注总带宽。华为、中兴、H3C的技术报告均强调,超节点的核心在于通过硬件结构、信号链路与软件协同,实现通信流量的分层优化,从而提升大模型训练效率。

2026-05-19 18:00:00 487

原创 超节点文章 6:超节点走向智算中心:液冷、供电、运维和 AI 工厂

本文基于华为、中兴、H3C三份技术报告,探讨超节点在智算中心落地面临的系统性挑战。超节点不仅是GPU/NPU的堆砌,而是涉及算力层、互联层、工程层、软件层、运维层和成本层的整体解决方案。高密度算力推动液冷成为标配,供电系统需升级至高压直流,整柜交付要求机房改造。运维体系需从被动修复转向主动预防,RAS能力直接影响训练成本。最终,AI生产将从项目制转向标准化Token输出,竞争核心将聚焦单位Token成本和绿色化。超节点的价值在于将高密度算力与高速互联、资源池化及智能运维结合,实现AI生产的规模化与高效化。

2026-05-18 18:45:00 366

原创 超节点文章 5:华为、中兴、H3C 三份报告对比:超节点路线到底有什么不同?

三份报告都讲超节点,但定义侧重点不同。报告定义侧重可以怎样理解华为AI 时代核心计算单元超节点是突破单机边界、支撑大模型训练推理的新型算力单元中兴高带宽域 HBD超节点是通过高速互联和专用交换芯片构建的紧耦合 GPU 协同域H3C机柜级紧耦合算力单元超节点是资源池化、统一内存语义和一体化基础设施构成的系统华为的定义偏产业和体系结构。它强调超节点把数十、数百甚至更多 AI 处理器组织成一个逻辑统一的计算体,并具备大带宽、低时延、统一内存编址、资源池化和可靠性能力。中兴的定义偏。

2026-05-18 18:30:00 567

原创 超节点文章 4:MoE、长上下文与智能体:哪些 AI 负载最需要超节点?

**摘要:本文基于华为、中兴、H3C的技术报告,探讨超节点技术在AI任务中的适用场景。研究表明,超节点并非适用于所有AI任务,而是更适合通信密集、内存密集、并行关系复杂且对延迟敏感的负载场景。文章重点分析了MoE模型、长上下文推理、PD分离架构和智能体应用等典型场景如何放大超节点的价值,指出超节点通过高带宽互联和资源池化能力,能有效解决GPU/NPU间的协同效率问题。同时强调超节点规模需平衡性能收益与成本边际效应。

2026-05-18 18:00:00 498

原创 超节点文章 3:超节点的核心技术:高速互联、统一内存编址与在网计算

超节点技术解析:大模型训练的关键基础设施 摘要:超节点作为大模型训练的核心计算单元,通过四层技术能力实现多芯片紧耦合协同:1)高速互联(TB级带宽协议),突破传统PCIe/RDMA限制;2)统一内存编址,将分布式内存抽象为全局地址空间;3)在网计算,将通信计算卸载至交换芯片;4)软件栈协同,优化框架与硬件映射。三大厂商报告显示,超节点正推动AI基础设施从Scale-Out向Scale-Up演进,通过OEX正交互联、CXL内存池化、UALink开放协议等技术,显著降低通信时延和调度损耗,特别适用于MoE训练、

2026-05-18 17:15:00 369

原创 超节点文章2:从 Scale-Out 到 Scale-Up:大模型训练为什么需要新的算力组织方式?

摘要: 超节点技术通过融合Scale-Up(纵向扩展)和Scale-Out(横向扩展)解决大模型训练的通信瓶颈。传统数据中心依赖Scale-Out堆叠服务器,但大模型训练需要高频协同计算,跨节点通信时延和带宽成为瓶颈。超节点通过构建高带宽域(HBD),将更多加速芯片紧密互联,减少跨服务器通信开销,同时保留Scale-Out的集群扩展能力。行业趋势显示,超节点正推动协议融合与拓扑创新(如CLOS、DragonFly),以平衡带宽、时延与成本,实现高效的大规模AI算力协同。

2026-05-18 16:30:00 849

原创 超节点文章1:超节点是什么?为什么 AI 时代越来越需要它?

摘要: 随着AI大模型进入万亿参数、长上下文、多模态等新阶段,传统“堆GPU”的算力架构面临通信、内存和复杂度三大瓶颈。超节点通过高速互联、统一内存编址、资源池化和软硬件协同,将多颗AI芯片整合为高密度算力单元,显著提升大模型训练与推理效率。其核心优势在于:1)构建更大高带宽通信域,降低跨设备时延;2)实现统一内存访问,突破单卡显存限制;3)支持动态资源调度,适配多样化AI负载;4)强化系统可靠性。超节点不仅是硬件升级,更是从Scale-Out到Scale-Up的范式转变,为万亿参数模型、MoE架构及长上下

2026-05-18 12:00:48 524

原创 分享 5 折 购买官方 GPT PLUS会员的方法全流程

通过土耳其区Apple ID购买GPT Plus会员可节省费用(约80-90元人民币)。方法包括:1)注册土区Apple ID(需土耳其身份信息);2)通过Oyunfor等平台购买土耳其区苹果礼品卡充值(约515里拉兑换500里拉);3)在App Store下载ChatGPT并使用余额开通Plus会员。需注意支付时填写土耳其地址,且礼品卡仅限土区使用。

2026-05-11 13:32:50 10036 2

原创 小米 MiMo Token Plan 接入 Trae 404 解决方案

文章说明了在 Trae 中接入小米 MiMo Token 计划时出现 HTTP 404 的原因与解决方法。按官方文档填写 OpenAI 兼容配置时,如果自定义 Base URL 只填 `https://token-plan-cn.xiaomimimo.com/v1`,Trae 会直接将其作为完整请求地址发送,不会自动拼接 `/chat/completions`,因此返回 openresty 404。解决办法是将地址改为完整接口:`https://token-plan-cn.xiaomimimo.com/v1

2026-05-11 08:38:28 1501 3

原创 小米 MiMo 百万亿 Token 活动怎么申请?逐步填写指南 + 高额度申请思路

最近小米 MiMo 开放平台的很火。这个活动不是普通注册送额度,而是面向 AI Builder、开发者、创作者、Agent 工具用户发放免费 Token 权益。活动总池子为权益,采用申请制,审核通过后会根据使用场景匹配不同档位。公开信息显示,最高可获得 Max 档 Token Plan,包含 16 亿 Credits,价值 659 元。

2026-05-09 21:52:11 4173

原创 更换 OpenClaw API Key 为 硅基流动 Siliconflow 的方式

本文介绍了在OpenClaw中使用硅基流动API的配置方法。首先需注册硅基流动账号并获取API Key,确认接口地址和模型名称。配置方法有两种:一是通过命令行设置API参数和模型列表,包括指定baseUrl、apiKey及多个模型ID;二是直接修改配置文件(openclaw.json),添加硅基流动的provider配置和模型参数。两种方法最后都需要重启gateway服务,并通过命令验证模型是否配置成功。关键注意事项包括保持API地址格式正确、模型ID需与模型广场一致,建议先配置到fallbacks以防错误

2026-02-27 19:59:02 6378 2

原创 OpenClaw 使用云主机Ubuntu部署以及对接飞书进行对话 全流程保姆级教程

目前OpenClaw 作为2026年AI届最热门的明星开源项目,引发了国内外的很大讨论热度。国内的多家云厂商,如阿里云、腾讯云、火山云都在过年前跟进了一键安装部署OpenClaw的云主机配套方案。这个热度上次还是口罩时期的多人联机游戏《幻兽帕鲁》恰好我有一台在上海可用区的云主机,也来凑个热闹,部署一下 OpenClaw,并且对接飞书,凑个热闹。在飞书中,找到这个机器人,然后进行对话由于我们之前选择的权限是 open,所以不需要配对就可以使用。

2026-02-27 18:55:51 4848

原创 TiDB 2026 上海站活动 观后碎碎念

中国AI与科技企业出海趋势及应对策略 本次活动围绕中国企业出海展开讨论,36氪副总裁谢作强分析了五大趋势:从模式输出转向技术溢出、AI双重赋能、供应链协同出海、跨区域能力提升及合规重视度提高。他建议企业聚焦产品竞争力、数字化能力和深度本土化。亚马逊云科技安全合规经理江学森则指出数据跨境传输、AI监管差异等行业合规挑战,并分享了亚马逊的合规支持方案。此外,亚马逊架构师沈金探讨了AI在企业级应用中的发展趋势。活动通过专业分享和圆桌讨论,为企业出海提供了战略指导和资源支持。

2026-01-13 14:31:53 754

原创 什么是functioncall,mcp,skills?一文作简单解析(随手记)

本文参考作者 Erlich 对于目前AI技术演进的视频解说,通过Get笔记整理而来。意在梳理目前有关于大模型演进史,从对话到function call,再到mcp,agent sdk,直至如今skills的基础认知。

2026-01-09 23:43:28 684

原创 什么是VLAN修剪(随手记)

如果没有VLAN修剪,交换机A会把VLAN 10、20、30的流量都发给B,即使B根本不需要VLAN 30的流量。VLAN修剪就是:在Trunk链路上“只放行有用的VLAN”,把没用的VLAN流量挡掉,省带宽、减广播、提安全。启用VLAN修剪后,Trunk链路只转发VLAN 10和20的流量,VLAN 30的流量被“剪掉”了。VLAN修剪 = 在Trunk链路上“剪掉”不需要的VLAN流量,只保留必须的VLAN。假设你有交换机A和交换机B,通过Trunk链路连接。

2026-01-09 00:07:43 317

原创 OLT设备介绍

OLT(光线路终端):是无源光网络(PON) 中的局端核心设备,位于运营商机房或大型企业网络中心,负责终结光纤主干并管理用户端设备。

2025-12-29 22:31:46 909

原创 Gemini 3 pro 体验,太强大了(附带生成的代码)

Google Gemini 3 Pro展示了强大的AI编程能力,通过实例演示了其响应复杂Prompt的能力。用户请求开发一个完整的双人黑八台球HTML游戏,Gemini不仅生成了完整的游戏代码,还解决了初始版本的两个关键问题:1)支持鼠标超出桌面区域的大力度击球操作;2)修复进球后无法继续操作的问题。生成的代码包含物理引擎、游戏状态管理和UI交互,可直接保存为HTML文件运行。该案例展示了Gemini在理解复杂需求、调试代码方面的出色能力,为AI辅助编程提供了有力证明。

2025-11-19 20:49:50 1174

原创 天翼云 ECS 弹性云主机的IP地址无法访问,无法访问 ECS 的网站,解决方案(随手记)

作者在ECS上部署服务时发现80/443等端口无法访问,检查安全组和端口配置均无问题。经天翼云客服提示才知,自去年11月起80/8080/443/8443端口需备案才能使用,而此前仅需安全组放行。建议遇到类似问题时直接更换端口。

2025-11-09 22:56:34 373

原创 CPU QoS CPU资源份额 CPU 资源预留 CPU 资源限额 三个名词解释(随手记)

本文介绍了华为FusionCompute虚拟化平台中的CPU QoS技术,主要包括三个关键参数:CPU资源份额、预留和限额。CPU份额按比例分配计算资源,预留值保证最低计算能力,限额则控制资源占用上限。通过竞争和非竞争场景的实例说明,展示了虚拟机在不同负载情况下如何动态分配CPU资源。该技术能有效隔离虚拟机间的性能干扰,平衡资源分配,提高资源利用率并降低成本。需要注意的是,本文内容仅适用于华为FusionCompute平台。

2025-10-24 11:38:53 1128

原创 GOPS 2025 上海站 观后碎碎念

本文分享了作者参加GOPS 2025全球运维大会上海站的见闻与收获。会议聚焦运维领域,涵盖金融类、SRE稳定性、可观测性、AIOps等多个分论坛。作者重点记录了三个主题分享:1)运维知识库构建方案,提出结构化三步法解决传统RAG局限性;2)B站推荐系统稳定性实践,分析推荐技术演进与治理方案;3)网易复杂系统稳定性思考,强调日常变更管理的重要性。整体来看,AI技术正从概念讨论转向实际应用,LLM和Agent技术正逐步赋能运维领域。作者认为当前落地案例仍属试点性质,但对未来AI与运维的深度融合充满期待

2025-10-20 13:15:45 1140

原创 在国内使用claude code,实操可行(随手记)

本文介绍了如何通过Code Router平台直接使用Claude Code进行编程。首先需要注册账号(可使用Github账号),新用户可获得200美元试用额度。注册后按照教程配置环境,Mac用户需执行提供的shell脚本安装Node.js和npm环境。该脚本会自动检测操作系统并完成前置环境准备,支持Linux和macOS系统。通过这种方式,用户无需翻墙即可体验Claude Code或Codex等大模型API服务。

2025-09-29 00:10:46 2047 1

原创 云扫盲:云防火墙与云 WAF 的对比

云防火墙与WAF对比摘要:云防火墙(CFW)是网络层防护服务,管控互联网/VPC/主机边界流量,防御DDoS等网络攻击;WAF专注应用层,防护SQL注入、XSS等Web威胁。二者在防护层级(OSI 3-4层 vs 7层)、部署位置(网络边界 vs 应用前端)和核心功能(流量管控 vs HTTP协议解析)存在显著差异。实际部署中,阿里云采用串行模式(先WAF后防火墙),AWS等则分层防护。建议企业结合业务需求,构建纵深防御体系。

2025-09-17 10:20:56 1693

原创 光功率dBm为何是负数?一文详解

本文深入浅出地讲解了光通信中dBm和dB的概念与应用。dBm作为绝对单位表示光功率,0dBm对应1毫瓦,负数表示小于1毫瓦的功率;dB则是相对单位表示光功率损耗。文章通过数学公式和对数运算原理,解释了为什么采用对数单位能简化复杂的功率计算,将乘除运算转换为简单的加减运算。此外,还详细介绍了光功率衰减的计算方法、常见标准值,并提供了实际应用场景中的诊断方法,包括OTDR曲线分析、网络设备光功率检测标准以及家庭光纤网络的质量评估标准。全文系统性地阐述了光通信功率测量的关键概念,为工程技术人员提供了实用的参考指南

2025-08-11 23:46:51 5136

原创 tcpdump 命令解析(随手记)

Tcpdump是类 Unix 系统的王牌抓包工具,名字由「TCP 协议」和「数据导出」组合而来。嗅探并保存流量数据按协议 / 端口 / IP 精准过滤生成 pcap 文件供后续分析tcpdump 是一个单独 yum 包,可以直接通过安装。

2025-07-21 15:10:33 1237

原创 Macbook M3 使用 VMware Fusion 安装 openEuler24.03LTS

由于Rocky9.5和OpenEuler 22.03 都是一样的内核,那么Rocky 能正常安装但OpenEuler不能的原因就排除了内核。通过对比Rocky和OpenEuler的GRUB参数,可以发现OpenEuler的参数比较多,那么一个一个参数收窄最后就可以定位到。最近购得一台MacbookAir M3,想尝试一下在这台笔记本上安装OpenEuler虚拟机。一番搜索,最后在OpenEuler官方论坛找到了一篇帖子,成功解决了这个问题。为了方便大家观看,在这里直接把问题的解决方案抛出给大家。

2025-06-07 16:18:53 1420

原创 URL末尾加“/”和不加“/”的区别(随手记)

URL结尾是否加"/"会影响服务器解析请求和相对路径处理。加"/"表示访问目录(如/blog/会解析为blog目录下的默认文件),不加"/"表示访问文件(如/blog可能被解析为文件或重定向到目录)。相对路径的解析方式也会因此不同,影响资源定位。建议在SEO中保持URL形式的一致性,避免同名目录和文件混淆。API接口需严格遵循文档规范。总结来看,加"/"明确指向目录,不加"/"可能导致不同解析结果,需根据实际需求选择适当形式。

2025-06-05 09:55:31 510

原创 VMware Fusion安装win11 arm;使用Mac远程连接到Win

在VMware 25周年时(即2024年),将Pro版本均允许个人免费试用,同时下架了原本的Player版本。但需要注意的是,仅个人使用用途,不可商用。JD买的M3会赠送2年的PD虚拟机,是目前Mac上最方便、效果最好的跑Win虚拟机的方式。安装VMTools只要点击挂载,然后进入我的电脑,点击到光驱,然后找到setup.exe,点击运行即可。还有一个需要注意的地方:刚初始化好的Win11分辨率会很糟糕,在安装完VMTools,才可以修改分辨率。点击完成后,启动Win11,正常初始化即可。

2025-05-06 10:27:44 3293

原创 微软OneNote无法同步解决方案

假设有多台Windows电脑,最方便且免费的多设备笔记同步方案就是微软自家的OneNote,使用OneDrive自带的5G云存储。但是在国内大陆的OneNote,经常会出现无法同步、同步失败;账号登录·也经常出现登陆失败或转圈很久的情况。实际上,有人会提出使用代理,但仍然不行。通过查阅资料,发现了原因并给出解决方案。本文作者使用的是Windows操作系统,OneNote UWP版。

2025-03-17 10:56:48 3040

原创 Zabbix+Deepseek实现AI告警分析(非本地部署大模型版)

最近手伤了,更新频率下降……近期在Zabbix社区看到了一篇文章:张世宏老师分享的《Zabbix告警分析新纪元:本地DeepSeek大模型实现智能化告警分析》,感觉很有意思,该文章分享了如何通过ollama本地部署的Deepseek实现Zabbix告警分析。鉴于很多人都没有GPU服务器去本地部署大模型,又想测试Zabbix+AI的能力。本文通过硅基流动的来和Zabbix联动,实现AI智能分析告警的功能。特别注意:本实验仅可用于测试环境,务必不要将生产与敏感数据放至公网而导致信息泄露!!!

2025-03-05 18:07:41 4515 3

原创 RHEL 跳过首次登陆初始化注册新用户(随手记)

使用RHEL时,如果安装的GUI,在首次登陆会强制要求创建新用户。可以通过删除gnome-initial-setup这个软件包解决这个问题。

2025-02-12 10:11:29 611

原创 napalm ‘NXOSDriver‘ object has no attribute ‘port‘ 解决方案(随手记)

使用napalm时,对于Cisco Nexus设备,默认采用的是443的api去访问获取数据,如果需要使用ssh的方式获取,需要特别指定。

2025-02-04 15:47:19 254

原创 napalm_ce 报错 No module named ‘netmiko.ssh_exception‘ 解决方案(随手记)

库移除了,并将内部的Exception函数全部重定向到了。制作的,为了能都使用,最好还是修改源代码。进入到这个包,找到ce.py这个文件。所以需要修改import的路径。版本,也不会出现这个问题。

2025-02-04 15:20:39 724

原创 Zabbix 推送告警 消息模板 美化(钉钉Webhook机器人、邮件)

目前网络上已经有很多关于Zabbix如何推送告警信息到钉钉机器人、到邮件等文章。但是在搜索下来,发现缺少了对告警信息的美化的文章。本文不赘述如何对Zabbix对接钉钉、对接邮件,仅介绍我采用的美化消息模板的内容。活用AI工具可以减轻很多学习、脑力负担。本文采用了与deepSeek、Chatgpt-4o两款模型对话,最后给出了如下的美化内容。

2025-02-02 10:40:39 3841 1

CX320 交换模块 V100R001 配置指南 13

CX320 交换模块 V100R001 配置指南 13

2024-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除