- 博客(287)
- 资源 (64932)
- 收藏
- 关注
原创 AI 智能体时代的上下文工程剖析
摘要:Anthropic最新提出的"上下文工程"标志着AI应用开发从提示词工程向动态信息管理的范式迁移。上下文包括系统提示、对话历史、工具调用等模型可见的所有信息,其核心挑战在于如何在有限注意力预算内优化信息流。博客提出四项设计原则:精简系统提示、高效工具交互、精选少样本示例和按需检索,并针对长周期任务推荐压缩、结构化笔记和多智能体架构三种策略。随着模型能力提升,上下文工程将推动AI系统向更自主的信息管理方向发展,但其核心始终是最大化有限上下文资源的信号价值。
2025-12-06 23:43:39
833
原创 大模型推理基础设施的技术挑战与应对策略
摘要:大模型推理已成为算力需求的核心驱动力,对基础设施提出严峻挑战。当前面临四大痛点:1) 计算环节存在算子效率低、架构压力大等问题;2) 传输环节带宽利用率不足且通信开销高;3) 存储环节容量需求激增、性能受限;4) 调度环节资源利用不均衡。解决方案采用"算传存调结合+软硬件协同"思路,通过深度优化计算、分层通信、近存计算和智能调度等技术,实现推理性能显著提升:吞吐量提升3.2倍,时延降低72%。最终形成训推一体基础设施和推理一体机两大产品矩阵,支撑大模型规模化落地。
2025-11-09 19:58:26
823
原创 英伟达发布新推理GPU-Rubin CPX!100TB大内存,单机架AI性能暴涨6500%,长上下文推理的利器
英伟达推出全新专用GPU RubinCPX,专为长上下文推理和视频生成设计。该芯片配备128GB GDDR7内存,NVFP4精度下算力达30PFLOPS,相比现有系统提供3倍更快的注意力机制。集成144张RubinCPX的VeraRubinNVL144CPX平台单机架性能达8EFLOPS,内存带宽1.7PB/s,是Blackwell Ultra系统的7.5倍。RubinCPX采用经济型单芯片设计,与旗舰GPU协同工作,优化分解式推理流程,特别适合处理超百万token的长文本和视频任务。英伟达预计该平台可实现
2025-09-10 08:53:04
841
原创 在国产GPU上体验大模型Grok-1
Grok-1的激活参数数量为860亿,表明其在处理语言任务时的潜在能力强大,同时使用旋转嵌入位置编码,这是一种处理序列数据的方法,可以提高模型处理长文本的能力,上下文长度最大支持8192个tokens。在海光DCU上运行Grok-1模型,不仅展示了其卓越的计算性能,还证明了国产GPU在大语言模型领域的巨大潜力。Grok-1是马斯克旗下的xAI公司开源的大语言模型,参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿,是迄今为止参数量最大的开源大模型。1# 1.拉取docker镜像。
2024-12-10 13:17:52
1120
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1