在进行many core的设计中,避免不了指令与数据的加载。在NV的GPU中,CUDA提供了HostToGPU的相关函数来实现数据的加载,而指令的加载,当然是在进行程序执行时进行了。
对于具体的Arch,其所对应的具体指令和数据的加载是不一样的,但是单就从加载顺序上来说,对于加速器这类many core而言,指令的加载都是在数据加载完毕后才执行的,这是程序设计基本流程所决定,程序进行执行之前,所有的初始化数据必须准备好,否则程序不允许执行。在加速器many core中,其存储系统的管理通常由host来完成,而host通常会将这部分工作留给runtime system来实现。当Host向many core提供数据时,大块数据通过DMA的方式来传输是最优先的选择,毕竟一个数据一个数据的传输,效率是相当慢的,即便是many core中的controller采用不可编程的FSM来控制,其速度相比DMA而言最少要慢上一半。而对于指令的加载,可以采用与数据加载类似的方式来实现。
基于目前的各种原因,尝试采用非DMA的方式来实现,在many core的controller中加入一个缓存来进行数据的缓冲,这样做,存储部分的某些初始化工作就会避免,但是后期的存储管理是避免不了的。先尝试采用这样的方法,看看效率能达到多少。