自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (1)
  • 收藏
  • 关注

原创 Docker工具边学边用[3]: 在ubuntu22.04系统中搭建opencl运行环境

本文给出了,在docker+ubuntu2204环境中,配置opencl环境的完整教程,方便调试opencl算子

2024-06-16 16:41:30 431

原创 OpenCL探秘之内存模型[2]: 带宽测试(附源码)

(1)直接通过Read/Write buffer进行数据拷贝;(2)通过Map/Unmap Buffer的方式拷贝数据;2)image是一种特殊的数据结果,用于存储图像(包括1D/2D/3D),同时还包括插值和滤波等操作;硬件环境,重点对buffer类型数据在多种拷贝方式下的效率进行实测及比较。(3)设备端拷贝至设备端;1)buffer是一种线性数据结果,可存储任意类型的数据,包括大块的数组或矩阵;3)pipe是一种用于数据传输的高级数据结构,可实现设备间的数据通信及协作计算。

2024-05-12 11:49:43 542 1

原创 SIMD高性能算子优化[3]:方阵快速转置

(2) _mm_unpacklo_ / _mm_unpackhi_():从源XMM寄存器中去除低32(或高32)位数据后,交叉存储在目的寄存器中。如图1所示,4*4矩阵可按照行向量方式划分为4行,后续SSE操作时,以上述的行向量为基本操作单位,数据类型统一为float32。(1) _mm_load_ps() / _mm_store_ps() :利用XMM寄存器单次获取/存储4个fp32的浮点型数据;图4. _mm_unpacklo_ps()函数操作过程说明。图1. 4*4矩阵分步转置示意(共计两大步)

2023-08-11 21:03:58 493

GPGPU_paper.zip

GPGPU_paper.zip

2022-10-11

OpenCl_CodeSample.zip

基于Intel / AMD / Mali-GPU / Nvida等平台的官方OpenCL源码

2021-02-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除