高性能计算
文章平均质量分 97
落樱弥城
无无
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
OpenCL性能优化示例
本文介绍了OpenCL GPU优化的核心逻辑与方法,重点以直方图计算为例展示了多种优化技巧。核心优化原则包括:保持计算单元忙碌、避免内存瓶颈。通过5种直方图实现方案的性能对比(4.63ms→0.69ms→0.68ms→5.29ms→0.102ms),具体展示了: 1)使用本地内存(cl_image)减少全局竞争 2)增加单work-item处理像素数(patch) 3)分阶段计算方案(partial)的权衡 4)基于tile的访存优化 最终tile4x4方案性能提升45倍,验证了合理利用内存层次结构和增加并原创 2026-06-18 22:00:31 · 204 阅读 · 0 评论 -
Arm Mali GPU架构
对比维度UtgardMidgardBifrostValhall架构定位初代 Mali,面向固定功能图形渲染首代统一架构,引入通用计算面向能效优化与执行模型重构面向高性能与可扩展算力着色器架构分离式(Vertex / Fragment)统一着色器(Unified Shader)统一着色器(标量化执行)统一着色器(进一步解耦执行单元)核心执行模型单流水线 + 多线程隐藏延迟Tripipe(三管线:ALU / LS / TEX)Execution Engine(标量执行)原创 2026-04-11 18:06:45 · 595 阅读 · 0 评论 -
Vulkan Compute 详解
Vulkan是一款由Khronos开发的跨平台图形与计算API,于2016年发布,旨在解决传统API在高性能、低开销和多线程支持方面的不足。它采用显式控制设计,将资源管理、同步机制等交由开发者处理,实现精细化GPU控制。Vulkan与OpenGL和OpenCL相比,具有更细粒度的控制能力、更强的多线程支持以及统一的图形与计算模型。其核心架构包含对象模型(如Instance、Device)、资源模型(Buffer、Image)和执行模型(CommandBuffer、Queue),通过计算管线(Compute原创 2026-03-30 22:23:47 · 544 阅读 · 0 评论 -
OpenCL概论
摘要:OpenCL作为跨平台异构计算标准,通过硬件抽象层、厂商驱动适配和全场景无绑定三大设计逻辑,实现对CPU、GPU、FPGA等硬件的通用调用。本文系统剖析了OpenCL的平台模型、内存模型、执行模型和编程模型四大核心架构,并以矩阵相乘为例演示完整开发流程。同时介绍了OpenCL的性能分析工具,帮助开发者平衡通用性与性能。OpenCL适用于需要跨平台兼容的场景,但需针对特定硬件优化以提升性能。 关键词:OpenCL;异构计算;并行计算;平台模型;内存模型原创 2026-02-01 18:52:37 · 1012 阅读 · 0 评论
分享