硬件相关优化
Rachelint
不切实际的愉悦犯。
展开
-
编译器O2优化下,分块矩阵乘法的TLB分析猜想
直接将写在实验报告里的那段放进去就算了,好累。 3.3(2分)对最优分块大小的分析 实验表明,分块大小为 32 时性能最好。这个结果和你的预期一致吗? 不一致 。如果不一致,其原因在于 使用perf工具对编译器优化参数为O0、O2下,m0/4、m0/2、m0三种分块大小的运行情况进行了查看,查看的参数主要为L1 dcache miss、dTLB miss。结果显示:...原创 2019-12-22 23:18:01 · 252 阅读 · 0 评论 -
基数排序的硬件层面优化实现总结
先开个文章保存点找到的资料,写完作业后再写。 利用GPU进行局部排序,提高内存带宽利用的实现版本,intel的系统性介绍文章中有进行引用,intel文章中只详细介绍了CPU实现: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5161005 非常经典的资料,大多相关优化文章都有引用里面提到的基础技术,GPU实现SIMD式局...原创 2019-11-11 21:15:34 · 219 阅读 · 0 评论