- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 Docker工具边学边用[3]: 在ubuntu22.04系统中搭建opencl运行环境
本文给出了,在docker+ubuntu2204环境中,配置opencl环境的完整教程,方便调试opencl算子
2024-06-16 16:41:30
431
原创 OpenCL探秘之内存模型[2]: 带宽测试(附源码)
(1)直接通过Read/Write buffer进行数据拷贝;(2)通过Map/Unmap Buffer的方式拷贝数据;2)image是一种特殊的数据结果,用于存储图像(包括1D/2D/3D),同时还包括插值和滤波等操作;硬件环境,重点对buffer类型数据在多种拷贝方式下的效率进行实测及比较。(3)设备端拷贝至设备端;1)buffer是一种线性数据结果,可存储任意类型的数据,包括大块的数组或矩阵;3)pipe是一种用于数据传输的高级数据结构,可实现设备间的数据通信及协作计算。
2024-05-12 11:49:43
542
1
原创 SIMD高性能算子优化[3]:方阵快速转置
(2) _mm_unpacklo_ / _mm_unpackhi_():从源XMM寄存器中去除低32(或高32)位数据后,交叉存储在目的寄存器中。如图1所示,4*4矩阵可按照行向量方式划分为4行,后续SSE操作时,以上述的行向量为基本操作单位,数据类型统一为float32。(1) _mm_load_ps() / _mm_store_ps() :利用XMM寄存器单次获取/存储4个fp32的浮点型数据;图4. _mm_unpacklo_ps()函数操作过程说明。图1. 4*4矩阵分步转置示意(共计两大步)
2023-08-11 21:03:58
493
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人