Shining0596-CSDN博客

原创 QEMU 编译开发环境搭建

本文详细介绍了QEMU开发环境的搭建流程，包括系统要求、依赖安装、源码获取、编译配置和构建验证。针对不同Linux发行版提供了具体的安装命令，并推荐最小化配置以加快构建速度。同时介绍了开发工具配置方法，如生成compile_commands.json、VSCode插件配置和GDB调试技巧。最后提供了基于CNB的云原生一键开发方案，通过Fork仓库即可快速获得预配置的开发环境，适合希望跳过本地环境配置的用户。文中还包含常见问题解答，帮助开发者快速上手QEMU开发。

2026-04-20 16:31:09 482

原创前沿模型系列（五）《多模态智能及其应用》

本文探讨了多模态理解生成一体化技术的最新进展，聚焦NanoBananaPro模型的原生多模态能力。该技术通过统一架构实现文本与图像的生成与理解，支持长上下文处理和对话式出图。研究分析了高质量数据生产、人类评估体系对模型性能的影响，并指出开源模型在物理规律遵循和意图理解方面的不足。技术脉络部分梳理了从CLIP到GPT-4等关键突破，框架设计则比较了生成外挂、极致统一和融合建模三种技术路线的优缺点。DeepMind的相关研究为连续特征与Diffusion Loss的应用提供了重要参考，展现了该领域的技术发展方向

2026-03-23 16:06:55 914

原创推理引擎系列（七）《InfiniLM》

本文系统介绍了InfiniLM大模型推理框架的技术架构与工程实践。框架采用分层设计，包含Python接口层、C++核心层和设备运行时层，支持CPU/GPU多平台部署。重点讲解了内存管理、上下文管理和张量操作等核心组件，详细说明作业项目的环境配置、核心算子实现及Qwen-1.5B模型适配方法。同时提出了CPU加速、CUDA优化、聊天机器人实现等进阶方向，并介绍了国产GPU平台的兼容性优势。通过完整的工程案例，展示了如何构建从基础库到推理框架的全栈系统，为国产AI芯片生态建设提供实践参考。

2026-03-23 16:02:14 603

原创训练系统系列（五）《强化学习及 DeepSeek》

本文介绍了强化学习基础概念与DeepSeek架构演进。强化学习部分对比了监督学习与强化学习，详细讲解了马尔可夫决策过程、价值函数、贝尔曼方程等核心概念，以及Q-Learning、DQN、策略梯度、Actor-Critic和PPO等算法原理。DeepSeek架构部分概述了从V3到R1、V3.2的演进过程，重点介绍了MoE架构、MLA模块、RLVR训练方法和创新的DSA（稀疏注意力）技术，通过Top-K选择机制显著降低了长上下文推理的计算成本。全文系统梳理了强化学习理论基础及其在大模型优化中的应用实践。

2026-03-21 10:57:54 691

原创 CUDA 编程系列（七）《量化与工业级调优部署》

本文系统总结了CUDA程序优化的关键技术。首先回顾了并行计算基本定律，重点分析了计算强度优化策略。详细介绍了FP16、BF16、TF32、FP8等低精度数据类型的优势及INT8量化技术。深入探讨了PTX微指令调优、Warp Divergence处理、指令级并行(ILP)等底层优化方法。最后介绍了cuDNN、cuBLAS、CUB等CUDA官方库的使用场景。通过算法设计、数据结构优化、精度控制等多维度协同优化，可将CUDA程序性能提升至工业级水平。

2026-03-21 10:53:11 491

原创推理引擎系列（六）《vLLM-Ascend 大模型推理》

本文介绍了vLLM-ascend推理引擎的整体架构与核心技术。主要内容包括：1) 社区演进与华为昇腾技术路线，强调开源生态的重要性；2) 架构解析，包含计算架构层和框架Plugin层设计；3) 核心技术如PagedAttention内存管理、ContinuousBatching优化等；4) 推理精度与性能分析方法及工具使用；5) 部署流程与常用特性。重点展示了vLLM-ascend如何通过硬件适配和优化策略提升NPU推理效率，同时保持与开源生态的兼容性。

2026-03-20 16:33:12 450

原创 Triton&九齿系列（七）《九齿三重：天通》

本文探讨了九齿与Triton在AI算子开发中的核心价值和应用。首先区分了Kernel与算子的概念，指出九齿和Triton专注于底层计算优化。相比厂商库，它们在新型算子验证、算子融合和边缘场景优化方面具有优势，并提供更高的开发效率。通过Roofline模型分析了算子性能评估方法，并以RMSNorm算子为例展示了九齿的优化效果，相比PyTorch原生实现可获得数倍性能提升。文章还介绍了九齿提供的完整工具链和示例代码资源，强调这种高效算子开发工具将成为AI系统的重要竞争力，为AI创新提供有力支持。

2026-03-20 10:37:33 495

原创前沿模型系列（五）《大模型自主智能体》

大模型自主智能体技术对 AI 应用边界的重塑，指出大模型随参数量增长实现智能涌现，却存在专业技能欠缺、自主与协作能力不足的局限。课程介绍了智能体的核心能力、ReAct 框架及模仿、教程、强化三阶段工具学习路径，讲解 XAgent、RepoAgent 等典型应用和工作流自动化案例，阐述多智能体协作的原理、实现方式与核心要素，以及 AutoForm 提升交互效率的作用，指明该技术突破大模型局限，推动 AI 从 “能说话” 向 “能做事” 质变，未来将走向万物智联。

2026-03-20 10:34:24 388

原创推理引擎系列（五）《大模型服务系统》

本文系统阐述了大模型推理服务的架构设计与优化方法。首先介绍了基础功能模块，包括用户交互和会话管理，重点分析了KV Cache的内存管理策略。针对单用户多会话场景，对比了简单实现、KV Cache池和PagedAttention三种方案，其中vLLM的PagedAttention通过内存分页技术显著提升了并发能力。在多用户服务方面，详细解析了OpenAI风格API接口、服务层架构和核心调度策略，包括请求批处理、PD阶段分离等技术。整体呈现了一个完整的大模型推理服务系统设计方案，平衡了并发性能与资源利用率。

2026-03-20 10:22:21 478

原创训练系统系列（四）《训练框架编程基础》

本文系统介绍了PyTorch深度学习框架的核心概念与训练流程。主要内容包括：PyTorch环境搭建与Tensor基础操作；Autograd自动求导机制原理；nn.Module模块构建与模型管理；优化器、损失函数及训练流程实现；高级主题如混合精度训练、模型checkpointing等。文章通过理论讲解与代码示例相结合，完整呈现了从零构建PyTorch模型到执行训练循环的全过程，为应对大规模模型训练挑战提供了基础技能栈。

2026-03-19 10:32:30 319

原创 Triton&九齿系列（六）《DLCompiler 的高性能算子开发实践》

本文介绍了大kernel优化技术在深度学习编译器中的应用，重点分析了GroupMatmul、千问3NextAttention和DeepSeekV3Attention的优化方法。通过绑核优化实现MegaKernel，采用动态分组边界和对角线分核策略提升GroupMatmul性能。针对Attention模块提出融合Norm+Rope、rmsnorm+sigmoid等技术，避免张量变换并提升资源利用率。实验表明，优化后的千问3NextAttention性能提升1.8倍，DeepSeekV3Attention加速比

2026-03-19 10:25:02 324

原创 AI 编译器系列（七）《(MLIR)AscendNPU IR 编译堆栈》

本文系统阐述了AscendNPUIR架构的设计原理与实现方法。该架构基于MLIR构建，包含HFusion和HIVM两层核心方言：HFusion负责高层语义预处理和算子简化，HIVM则面向昇腾NPU硬件特性进行轻量化抽象。通过多级方言转换流程、专用OP设计及内存优化技术，实现了从DSL到硬件指令的高效编译。架构还整合了调优选项和Compiler Hint机制，支持细粒度性能优化。AscendNPUIR为昇腾NPU提供了统一高效的编译框架，推动AI计算性能提升。

2026-03-19 10:12:47 694

原创 OpenCL 编程系列（三）《OpenCL 算子的实现与优化》

本文系统介绍了OpenCL环境下Argmax、Softmax和矩阵乘法等关键算子的实现方法及优化策略。重点分析了Argmax的树状归约实现、Softmax的数学公式优化，以及矩阵乘法的子组优化、向量化加载等关键技术。同时探讨了Gemv量化方法及其在GGUF中的应用，包括传统量化、K系列和IQ系列量化方案。这些优化策略针对大模型推理场景进行了特化设计，旨在显著提升GPU计算效率和带宽利用率。

2026-03-19 10:06:58 215

原创 Triton&九齿系列（五）《天数智芯 Triton 实战》

天数智芯通过适配Triton框架实现了国产GPU的高效AI计算，主要优势包括：1）基于LLVM生态的无缝兼容；2）GPGPU架构的高度契合；3）支持Triton Kernels零改写复用。适配工作聚焦编译器层优化，在FlashAttention算子中实现了Block Tiling、MMA指令优化和延时归约等技术，使V2版本性能显著提升。该方案支持开发者直接迁移现有Triton代码，为国产AI芯片生态发展提供了重要支持。

2026-03-19 10:02:04 597

原创 AI 编译器系列（六）《Stable Diffusion 在 InfiniTensor 推理框架中的适配与工程实践》

本文介绍了Stable Diffusion这一基于扩散模型的AI图像生成技术。该技术通过潜在空间逐步去噪，将文本或图像输入转换为高质量输出，具有计算成本低、支持消费级GPU等特点。文章详细解析了其三大核心模块（文本编码、去噪生成、图像解码）及U-NET/DIT架构，并阐述了文生图、图生图等工作流程。最后展示了在InfiniTensor推理框架中的适配过程，包括环境搭建、模型预处理及完整的推理执行步骤，为理解该类模型提供了系统性的技术框架。

2026-03-19 09:57:52 389

原创 CUDA 编程系列（六）《异步并行、底层控制与系统优化》

本文系统讲解了CUDA系统优化与高级技术，聚焦延迟瓶颈的识别与优化。首先阐述了延迟瓶颈的概念及识别方法，介绍了存算重叠技术实现延迟隐藏的关键方法。随后详细讲解了异步执行、多流并行、统一内存管理等优化技术，并分析了计算图优化的优势与工作流程。文章还探讨了多GPU协同计算的硬件互联与通信模式，最后总结了性能优化的指导原则。通过从单GPU到多GPU的系统级优化方法，为提升CUDA程序性能提供了全面的技术指导。

2026-03-18 09:40:03 525 1

原创 AI 编译器系列（五）《拓展 Triton 深度学习编译器——DLCompiler》

上海人工智能实验室推出DLCompiler，基于Triton编程模型扩展，专为DSA架构国产AI芯片优化算子开发。该方案通过生产者-消费者模型、Tile编程接口和自动优化技术，简化了传统开发中需手动处理内存、计算单元等复杂问题，显著提升硬件利用率。DLCompiler支持多级缓存管理和计算-通信流水线，未来将扩展至多卡场景优化。该工具降低了国产芯片开发门槛，促进生态整合，为AI算力需求增长提供重要支持。

2026-03-18 09:32:19 551

原创推理引擎系列（四）《大模型计算优化与分布式推理》

本文系统介绍了大模型推理的计算优化与分布式技术。在计算优化方面，重点阐述了低精度量化（FP16/INT8等）降低显存占用、算子融合减少计算开销、注意力机制优化（MQA/GQA）等技术。在分布式推理方面，分析了数据并行、模型并行和流水并行策略，以及张量切分的具体实现方法。这些技术通过充分利用硬件资源，有效解决了大模型推理面临的空间占用高、计算延迟大、硬件成本高等问题，为提供高效实时的大模型服务奠定了基础。

2026-03-17 10:12:30 302

原创训练系统系列（三）《大模型训练中的显存优化》

本文系统阐述了大模型训练中的显存优化技术。数据并行(DDP)通过AllReduce同步梯度，但存在显存冗余问题。ZeRO优化器采用三级分片策略：Stage1分片优化器状态，Stage2增加梯度分片，Stage3实现参数分片。激活值检查点通过选择性保存和重新计算减少显存占用。模型并行包括张量并行(参数维度切分)、流水并行(分层切分)和序列并行(序列维度切分)。此外还介绍了Offloading技术(将状态移至CPU/硬盘)及其他优化方法如混合精度训练、梯度累积等。这些技术通过通信和计算开销的权衡，系统性解决了大

2026-03-17 09:55:01 141

原创 AI 编译器系列（四）《AI 编译器中的后端优化》

本文系统介绍了深度学习系统中的四大优化技术：内存管理方面提出了惰性分配和引用计数机制；算子优化详细阐述了循环分块/展开/融合等策略以及SIMD指令优化；AutoTuning技术可自动寻找最优参数；代码生成部分重点介绍了Triton语言及其抽象概念。这些方法从不同维度提升系统性能，包括减少内存分配开销、提高计算并行度、优化数据访存模式等，为深度学习框架的优化提供了完整的技术路线。

2026-03-17 09:49:52 533

原创 Triton & 九齿系列（三）《九齿二重：渐悟》

本文系统介绍了九齿并行编程框架的核心概念与使用方法。首先讲解了九齿环境配置和基础概念，包括NineToothedPuzzles工具和九齿张量的创建、求值与可视化方法。重点解析了九齿核心三要素：排布（定义张量划分方式）、应用（定义并行计算逻辑）和张量（声明算法操作属性），详细说明了各要素的操作方法、一致性原则和注意事项。文章通过具体示例展示了九齿如何简化并行编程流程，强调理解符号张量、嵌套结构和自动并行机制的重要性，为开发高效计算内核提供了理论基础。

2026-03-17 09:44:22 158

原创前沿模型系列（四）《大模型前沿架构》

本文系统梳理了大模型架构的最新优化技术，重点分析了稀疏激活、混合专家（MoE）架构和量化技术三大方向。研究发现MoE架构通过专家分组和选择性激活，能以20%计算量实现98%性能，大幅提升效率。同时，文章揭示了人脑与AI在能耗效率上的显著差距，指出稀疏激活是优化关键。在推理优化方面，投机采样、Medusa解码等技术可实现1.6-5倍加速。此外，专家负载均衡、可微路由等创新方法进一步提升了MoE的扩展性。这些技术突破标志着大模型发展已从单纯规模扩张转向效率优先，为构建可持续的通用智能系统奠定了基础。

2026-03-17 09:38:28 408

原创 OpenCL 编程系列（二）《OpenCL 编程抽象与语法》

本文系统介绍了OpenCL异构计算框架的核心内容。重点讲解了OpenCL的四大抽象模型：平台模型（主机/设备架构）、内存模型（多级存储规范）、执行模型（上下文/命令队列/内核）和编程模型（数据/任务并行）。详细阐述了OpenCL C语言的语法要点，包括内核函数规则、地址空间限定符、向量操作和原子函数等关键技术。通过向量加法的实现示例，对比了串行、多线程和OpenCL三种编程方式的差异，展示了OpenCL细粒度并行的优势。最后简要提及了工作组同步、归约操作等常用技术，为后续复杂算子实践和性能优化奠定基础。

2026-03-17 09:25:57 692

原创 CUDA 编程系列（四）《分块与不规则访存》

本文系统介绍了CUDA矩阵乘法(GEMM)的优化技术体系。从基础实现开始，分析计算复杂度(O(n³))与访存瓶颈(O(n²))，重点阐述了共享内存缓存、分块(Tiling)等关键技术。通过1D/2D分块策略显著提升数据复用率，将访存次数从9次降至5次/元素，并解决Bank冲突问题。高级优化部分涵盖向量化访存、Warp分块等技术，使性能达到cuBLAS的82.6%。最后探讨了不规则访存优化策略，包括Z-order曲线、LBVH等空间数据结构。文章构建了从基础到高级的完整优化方法论，为计算密集型任务提供系统优化

2026-03-17 09:21:07 388

原创 CUDA 编程系列（四）《CUDA 程序迁移至天数智芯 GPU》

本文系统介绍了从NVIDIA CUDA迁移至天数智芯国产GPU的技术方案。重点分析了二者在Warp大小、Block线程限制和共享内存配置等核心架构差异，并详细阐述了需要修改的PTX汇编代码、非标准CUDA扩展和硬件相关假设三类代码。文章提供了完整的编译环境配置指南，包括SDK安装、编译器选择和Makefile/CMake迁移方法，并介绍了天数智芯SDK中的系统管理、性能分析和调试工具链。通过针对性的代码适配和优化，开发者可以在保持CUDA编程模型的同时，充分发挥国产GPU的硬件特性优势。

2026-03-17 09:16:57 1269

原创前沿模型系列（三）《检索增强的语言模型》

本文系统介绍了检索增强生成(RAG)技术，包括其发展历程和最新研究进展。首先阐述了语言模型基础知识和RAG技术提出的背景，重点分析了预训练模型在知识密集型任务中的局限性。然后详细梳理了RAG技术的经典工作和发展阶段，从2022年建立基本范式到2023年优化检索方式，再到近期结合思维链等创新方法。最后探讨了RAG技术的最新研究方向，包括检索过程优化和知识有效利用等挑战，并介绍了相关解决方案。全文全面呈现了RAG技术从理论到实践的发展脉络和前沿趋势。

2026-03-17 09:10:13 332

原创推理引擎系列（三）《从大模型推理到 AI 对话》

本文解析了大模型推理的核心流程与优化技术。首先介绍了从输入到输出的完整路径，包括token化、向量转换、Transformer计算等步骤，强调模型输出的是token概率分布而非确定结果。重点讲解了KVCache技术如何通过缓存历史键值向量来避免重复计算，提升推理效率。同时将推理过程划分为Prefill（预填充）和Decode（解码）两个阶段，并说明其不同计算特性及优化策略。此外还阐述了AI对话中的角色标记机制、模板引擎应用，以及Argmax、随机采样等多种文本生成策略的特点与适用场景。

2026-03-14 09:55:43 374

原创 AI 编译器系列（三）《PyTorch 中图优化》

本文系统梳理了PyTorch图优化技术演进路线。从动态计算图特性出发，详细解析了TorchScript（trace/script模式）、torch.fx（Python层IR转换）和PyTorch 2.0的torch.compile三大优化体系。重点剖析了torch.compile的三层架构：TorchDynamo实现字节码级图捕获与Guard保护机制，AOTAutograd生成联合计算图，TorchInductor完成后端代码优化。该技术路线在保持Python动态语义的同时，通过多级图优化显著提升执行效率，

2026-03-14 09:48:19 357

原创训练系统方向（二）《分布式训练》

本文系统介绍了分布式训练的必要性、原理及实现策略。随着模型参数激增，单卡显存和算力无法满足大模型训练需求，分布式训练通过模型并行和数据并行实现多设备协同计算。数据并行侧重数据切分和梯度聚合，而模型并行包括张量并行、流水并行和专家并行等策略，各有优缺点。混合并行结合多种策略能更高效应对大规模训练挑战。文章通过技术解析和案例分析，全面阐述了分布式训练的核心方法与应用实践。

2026-03-14 09:44:37 199

原创 CPU 并行编程系列（三）《鲲鹏 CPU 矩阵加速与特性介绍》

华为鲲鹏超智融合芯片创新性地将AI矩阵计算单元集成到CPU中，开创了HPC与AI融合新范式。该芯片具备众核架构、片上矩阵计算单元和高带宽内存三大特性，通过鲲鹏统一并行库(KPL)提供矩阵编程、并行开发等核心能力，优化了传统HPC和AI科学计算的性能表现。在WASP地形模拟和AlphaFold蛋白质预测等应用中，优化策略实现了3-10倍的性能提升，部分场景超越GPU表现。华为通过开源策略构建软件生态，为科学计算数字化转型提供高效硬件平台。

2026-03-14 09:33:52 486

原创 Triton&九齿系列（二）《九齿一重：初窥》

九齿是启元内部开发的深度学习领域特定语言，定位类似Triton但抽象层级更高。它通过解耦数据编排与计算逻辑，简化了GPU算子开发：开发者只需声明分块策略和数学运算，编译器自动处理并行实现细节。文章通过向量加法、矩阵乘法、卷积和FlashAttention等案例，展示了九齿如何将算法数学定义与底层调度分离，大幅降低编程门槛。相比Triton和CUDA，九齿更接近自然语言描述，使开发者能专注于算法本身而非硬件细节。

2026-03-14 09:24:37 502

原创 CUDA 编程系列（三）《内存模型与规约优化》

本文系统介绍了CUDA程序性能优化方法，重点分析了内存和计算瓶颈的识别与解决方案。通过Roofline模型定位性能天花板，提出右移优化和算子融合等提升计算强度的方法。详细讲解了向量化计算、低精度优化、并行规约等技术，包括Warp级规约、Block级规约和跨Block规约的实现策略。特别探讨了共享内存优化、BankConflict解决方法以及WarpShuffle等高效通信机制。文章为CUDA性能优化提供了完整的方法论和技术路线，帮助开发者突破内存带宽和计算资源限制，实现程序性能的显著提升。

2026-03-14 09:21:08 425

原创一个人的旅行（修改后重发版）

来到北京后，这是我第一次来北京，人生地不熟的，走在夜晚的路上，真的是空无一人😭就准备去天安门广场，去看升旗，晚上一点半到达开始排队。然后我就和朋友说，我不进去了，就让他进去.31号晚上八点半的高铁去北京，到达北京已经快十二点了。这是六点升旗结束的时候，每个月的第一天，都是升大旗。这是准备离开的时候拍的照片。在北京的第二天，结束！然后，我的第一站，圆明园。

2026-03-13 16:35:12 778 1

原创通信与并行系列（二）《大模型并行策略与通信优化》

摘要：随着模型规模扩大，单卡训练面临算力、显存和效率瓶颈，多卡并行成为必要选择。主流并行策略包括数据并行（处理不同数据批次）、模型并行（参数切分）及混合并行，需根据模型规模和硬件资源选择。通信优化是关键，涉及点对点和集合通信（如Allreduce），通过计算通信重叠、拓扑感知和DualPipe等技术减少空闲时间。这些方法显著提升训练效率，未来仍需持续优化以适应更大模型和硬件发展。

2026-03-13 16:25:25 351

原创 CPU 并行编程系列（二）《CPU 性能加速实战》

本文系统介绍了CPU矩阵运算性能优化的完整方法体系。测试框架采用xmake构建，支持多线程、SIMD等优化技术。关键优化手段包括：1)循环重排提升缓存命中率；2)多线程并行化实现4倍加速；3)OpenMP简化并行开发；4)SIMD指令集实现寄存器级优化；5)Intel MKL库提供最优实现，性能稳定在200GFLOPS以上。通过BLAS标准接口、内存访问优化和硬件特性利用，实现了从基础实现到最优方案的完整性能提升路径，为大模型推理等场景提供高效计算支持。

2026-03-13 16:16:47 328

原创 OpenCL 编程系列（一）《OpenCL 概述与运行时》

本文介绍了OpenCL并行计算框架的基本概念和应用场景，重点讲解了OpenCL程序的完整开发流程。内容涵盖从平台设备查询、上下文创建到内核执行和结果读取等11个关键步骤，帮助开发者掌握异构计算编程方法。课程强调理论与实践结合，建议学习者通过实际操作来巩固知识。

2026-03-13 16:10:42 64

原创 Triton & 九齿系列（二）《Triton-Ascend 编程》

本文介绍了Triton-Ascend架构在昇腾NPU上的适配与优化。重点分析了Triton在昇腾平台上的关键差异：CMD架构对数据连续性的严格要求，以及基于物理核的并行计算特性。详细阐述了算子开发范式，包括Grid设置与物理核匹配的优化策略，并提出了数据类型调整、访存优化等性能优化方法。随着Triton-Ascend的成熟，昇腾NPU的算子开发将更高效，为AI应用部署提供有力支持。

2026-03-13 16:07:01 271 1

原创 AI编译器系列（二）《AI 编译器中的前端优化》

本文系统介绍了前端模型优化技术，重点分析了图层优化方法及其应用。主要内容包括：1）图层优化技术，通过常量折叠、冗余节点消除、算子融合和数据布局转换解决结构冗余和读写冗余问题；2）模型优化案例分析，针对Gather操作性能问题提出优化策略；3）CUDAGraph解决方案，通过预定义计算图减少CPU-GPU交互开销；4）实践环节展示ONNX模型优化代码示例。文章强调前端优化技术对提升模型性能的重要性，为后端优化技术的学习奠定基础。

2026-03-13 16:01:36 558

原创 CUDA 编程系列（二）《性能模型与逐元素优化》

本文系统介绍了并行编程优化技术，重点分析了Roofline性能模型和向量化实现方法。课程首先对比CPU/GPU架构差异，指出内存墙是主要性能瓶颈。通过Roofline模型量化计算强度与峰值带宽的关系，结合NsightCompute工具进行性能分析。详细讲解了向量化技术（SIMD/SIMT）和半精度计算的优势，包括内存占用减半、计算强度提升等。最后提出关于float3使用和向量化访存方法的思考题，为后续算子融合和内存优化课程做铺垫。全文构建了从理论模型到实践工具的完整优化方法论。

2026-03-12 09:12:05 362

原创前沿模型系列（二）《科学多模态大模型》

摘要：上海人工智能实验室推出的InternS1科学多模态大模型通过创新架构解决了传统模型在科研场景的局限性。该模型采用三大输入通道（视觉/动态分词/时序）处理科学数据，构建2.5万亿token高质量科学语料库，并开发PDF解析和网页过滤双管线确保数据质量。其MOR混合奖励模型能动态平衡科学严谨性与创造性，配合FP8全链路优化显著提升效率。实际应用中，该模型在数学竞赛、化学解析等任务表现优异，并推出轻量版适配消费级硬件。作为科研操作系统核心，InternS1整合研究助手、数据广场等四大功能模块，实现了通用能力

2026-03-12 09:00:59 528 1

【并行计算与CUDA编程】GPU编程基础及并行计算入门：从理论到实践的全面解析

内容概要：本文档详细介绍了并行编程的基础知识及CUDA编程入门。首先对比了串行、并发和并行编程的概念，强调并行编程能够同时处理多个任务的优势。接着，介绍了CPU和GPU并行实现方式及其应用场景，强调了并行编程对于提升处理效率和吞吐量的重要性。文档重点讲解了GPU编程基础，包括CUDA平台特性、GPU内部结构（如流多处理器和CUDA Core）、GPU与CPU的协作关系、数据传输过程等。随后，通过具体示例解析了GPU编程流程，包括线程分配、索引计算、核函数定义、编译流程等。最后，探讨了性能优化策略，如循环放入核函数中，并通过实验对比了CPU和GPU的计算时间，指出了优化的关键点在于从总耗时角度考虑问题。适合人群：对并行编程和GPU编程感兴趣的初学者，尤其是有一定编程基础并希望深入了解CUDA编程的开发者。使用场景及目标：①理解并行编程概念及其相对于串行编程的优势；②掌握GPU编程基础知识，包括CUDA平台特性、GPU与CPU协作机制；③学会编写简单的GPU程序，理解线程分配和索引计算；④了解性能优化策略，掌握从总耗时角度评估程序性能的方法。阅读建议：本课程内容由浅入深，逐步引导读者掌握CUDA编程的核心概念和技术细节。建议读者跟随课程进度，结合实际编程练习，逐步理解并掌握GPU编程的精髓。尤其需要注意的是，GPU编程不仅涉及代码编写，还需要理解硬件架构和数据传输机制，因此在学习过程中应注重理论与实践相结合。

2025-08-21

TA关注的人

【并行计算与CUDA编程】GPU编程基础及并行计算入门：从理论到实践的全面解析

C++ primer 习题上半部分

C++程序设计编程题库

这个是怎么回事，用sln打开。