科技互联人生-CSDN博客

原创 AI 智能体时代的上下文工程剖析

摘要：Anthropic最新提出的"上下文工程"标志着AI应用开发从提示词工程向动态信息管理的范式迁移。上下文包括系统提示、对话历史、工具调用等模型可见的所有信息，其核心挑战在于如何在有限注意力预算内优化信息流。博客提出四项设计原则：精简系统提示、高效工具交互、精选少样本示例和按需检索，并针对长周期任务推荐压缩、结构化笔记和多智能体架构三种策略。随着模型能力提升，上下文工程将推动AI系统向更自主的信息管理方向发展，但其核心始终是最大化有限上下文资源的信号价值。

2025-12-06 23:43:39 833

原创大模型推理基础设施的技术挑战与应对策略

摘要：大模型推理已成为算力需求的核心驱动力，对基础设施提出严峻挑战。当前面临四大痛点：1) 计算环节存在算子效率低、架构压力大等问题；2) 传输环节带宽利用率不足且通信开销高；3) 存储环节容量需求激增、性能受限；4) 调度环节资源利用不均衡。解决方案采用"算传存调结合+软硬件协同"思路，通过深度优化计算、分层通信、近存计算和智能调度等技术，实现推理性能显著提升：吞吐量提升3.2倍，时延降低72%。最终形成训推一体基础设施和推理一体机两大产品矩阵，支撑大模型规模化落地。

2025-11-09 19:58:26 823

原创英伟达发布新推理GPU-Rubin CPX！100TB大内存，单机架AI性能暴涨6500%，长上下文推理的利器

英伟达推出全新专用GPU RubinCPX，专为长上下文推理和视频生成设计。该芯片配备128GB GDDR7内存，NVFP4精度下算力达30PFLOPS，相比现有系统提供3倍更快的注意力机制。集成144张RubinCPX的VeraRubinNVL144CPX平台单机架性能达8EFLOPS，内存带宽1.7PB/s，是Blackwell Ultra系统的7.5倍。RubinCPX采用经济型单芯片设计，与旗舰GPU协同工作，优化分解式推理流程，特别适合处理超百万token的长文本和视频任务。英伟达预计该平台可实现

2025-09-10 08:53:04 841

原创 DeepSeek大模型的发展的十问十答

针对DeepSeek大模型的简介，以及常用问题十问十答

2025-02-10 21:25:59 1214 1

原创国内AI芯片厂商的计算平台概述

国内AI芯片厂商的计算平台概述-昇腾、海光、天数智芯、寒武纪、燧原

2025-01-29 18:38:38 3239

原创揭秘AI智算中心网络流量：大模型训练的背后技术与挑战

AI智算中心的网络流量设计

2025-01-19 15:00:00 2031

原创多模态大语言模型技术进展

多模态大语言模型最新进展

2025-01-14 09:54:05 956

原创大模型思维链推理的进展、前沿和未来分析

大模型思维链推理的综述：进展、前沿和未来

2025-01-07 22:08:26 1728

原创大模型训练的数据解读

大模型技术讲解：大模型训练的数据

2025-01-03 10:53:30 773

原创大模型国产化迁移大模型到昇腾教程（Pytorch版）

大模型国产化适配10-快速迁移大模型到昇腾910B保姆级教程（Pytorch版）

2025-01-03 10:46:03 1851

原创大模型的开发训练与推理部署解读

大模型的开发训练与推理部署白皮书

2025-01-03 10:33:01 1283

原创大语言模型LLM技术报告

大语言模型：LLM技术报告

2024-12-30 09:43:23 521

原创开源智能工业软件技术发展分析

开源智能工业软件技术白皮书

2024-12-25 08:56:49 1761

原创弱电设计的网络基础知识

弱电设计——网络基础知识

2024-12-23 15:46:07 863

原创使用RDMA技术构建无损网络

如何使用RDMA构建无损网络？

2024-12-23 15:38:14 1237

原创微服务常用的中间件及其用途

微服务常用的中间件有哪些？都有什么用途？

2024-12-23 15:13:22 1531

原创微服务系统架构设计参考

微服务系统架构设计参考

2024-12-17 11:11:13 1096

原创搭建10万卡GPU集群技术指南

手把手教你搭建10万卡GPU集群

2024-12-17 10:39:28 1920

原创数据中心的网络架构设计指南

数据中心的网络架构设计指南

2024-12-12 10:56:46 1987

原创智算网络中Scale-out和Scale-up网络的技术原理

智算网络中Scale-out网络和Scale-up网络的本质区别是什么？

2024-12-12 10:46:35 3847

原创在国产GPU上体验大模型Grok-1

Grok-1的激活参数数量为860亿，表明其在处理语言任务时的潜在能力强大，同时使用旋转嵌入位置编码，这是一种处理序列数据的方法，可以提高模型处理长文本的能力，上下文长度最大支持8192个tokens。在海光DCU上运行Grok-1模型，不仅展示了其卓越的计算性能，还证明了国产GPU在大语言模型领域的巨大潜力。Grok-1是马斯克旗下的xAI公司开源的大语言模型，参数量达到了3140亿，远超OpenAI GPT-3.5的1750亿，是迄今为止参数量最大的开源大模型。1# 1.拉取docker镜像。

2024-12-10 13:17:52 1120