OpenCL memory object 之 Global memory (1)

最新推荐文章于 2024-08-05 19:00:31 发布

叶广明_微信ye_guangming

最新推荐文章于 2024-08-05 19:00:31 发布

阅读量1.1k

点赞数

分类专栏： opencl

opencl 专栏收录该内容

56 篇文章 1 订阅

订阅专栏

这篇日志是学习AMD OpenCL文档时候的总结。

OpenCL用memory object在host和device之间传输数据，memory object由runtime（运行库，driver的一部分）来管理。

OpenCL中的内存对象包括buffer以及image，buffer是一维数据元素的集合。image主要用来存储一维、二维、三维图像、纹理或者framebuffer。[对image对象，gpu会有优化，比如使用L1 cache，使用tile mode地址等等]

我们先画一张图，然后再来学习各种内存概念：

Host memory:

是指系统内存，cpu能够以全速带宽访问系统内存，但是GPU不能直接访问它。

Pinned host memory(page locked):

是host内存的一部分，由操作系统确定它的驻留位置，它的物理地址是固定的，不能改变。runtime会限制opencl memory object使用的pinned memory数量。注：pinned memory如同名字所言，不能被交换出内存，是page locked。cpu能够以全速带宽访问pinned内存，且需保持cpu cache一致性，GPU通过PCIE访问pinned memory，也要保持cache一致性。

Device visible host memory:

是pinned memory一部分，GPU访问时可以不必保持cpu cache一致性，这样可以加快GPU访问速度，但由于没有cache一致性，cpu读这些memory就变慢了，由于可以combined write（就是通过一次内存访问，邻接的很多地址进行写操作），cpu写操作速度并不慢。

Device memory:

dGPU有自己的device memory，gpu可以以高带宽进行访问，但cpu不能直接访问。

Host visible device memroy:

dGPU的一部分，GPU能够以全速带宽访问它，该内存被映射到cpu地址空间，做为无cache内存，cpu可以通过PCIE直接访问它，当然速度和system memory比，要慢好多，但是由于可以combined write（scatter write)，所以写速度取决于PCIE带宽。

对于APU而言，没有单独的global memory，它用device visible memory 做为global memory。