1)
自动推导,对于编译编译中的多面体,主要是做速度优化。有一点差异,操作是类似的。10年毕业 的,PLDI08。后面就没有跟了。还是用多面体,特殊形式,效率会高一点。
首先,多面体是一个不等式组,IF,赋值是等式变换,循环展开就是IF+赋值语句。
IF- ENDIF,
区间,类似的。加IF。变来变去。都可以映射到几何上的操作。
表示不等式,整数规划或者线性规划,实数。
图变来变去,一直操作这个图。把变量范围包在里面。
设置一个评价函数。平面上,多面体,程序点,用多边形包住。
数组原来一样,下标。I,J,右上角,IJ两个没有交集,不会冲突。
毕业之后 ,有什么进展不清楚。
现在还用多面体,对称多包体,还是做程序程序分析,Fortran,神经网络。
实现过多面体,后面的都自己用。
Apron, Ellinnat, 这两个库用得比较多。数学领导CCDLIB,纯做数学操作。
编译前端,IF语句,是约束。约束表示。XYZ的系数。这一部分,程序分析里面有自己这个。LLVM前端,换成,传进去。
返到程序里面,也要自己写。做过实验,做到编译优化里面。框架本身有例子了,开源的上面做更加快一点。基本上都是,实现过多面体,学习基本上也在用。文章不好出。让他们用。
没有做编译那一块,属于在传统程序分析里面。
2)
首先对输入
串行C 代码中的静态控制块进行抽取和依赖分析,通过调度变换和并行映射,
最终生成在DCU 平台主机端和设备端上运行的HIP 代码。
这个逻辑流程是对的。
3)
在程序调度计算过
程中,参数化分块大小。首先为内核调度生成一个搜索空间,生成不同次序的
候选并行调度。其次,分析线程间和线程内这两种数据重用和总访问代价,找
到最大数据重用率,在满足最大数据重用下,获得最大的性能和效率来选择最
优调度。实验结果表明,该方法有效优化程序执行效率,与使用
默认分块大小的测试结果对比,性能平均得到19%的提升。
分块大小是个比较简单的参数。
4)针对现有并行调度求解
中循环合并与循环并行化的冲突,实现了一种启发式的并行映射优化方法,在
保证循环并行优化的前提下,修改代码生成过程中调度树映射策略。以增量调
度中的约束限制为条件,对不适合并行计算的计算语句修改映射策略,重新生
成代码,降低内核函数启动开销。实验结果表明,该方法更好地利用DCU 硬件
资源,提高DCU 内核代码执行效率。与多种不同循环合并策略相对比,优化后
内核函数执行平均加速比达1.48 倍。