CSAPP读书笔记第六章（优化cache命中率）

最新推荐文章于 2024-08-02 17:21:17 发布

PYB不开心

最新推荐文章于 2024-08-02 17:21:17 发布

阅读量5.6k

点赞数

分类专栏： CSAPP学习笔记操作系统

本文链接：https://blog.csdn.net/pp634077956/article/details/52938831

版权

本文通过实例分析了程序的局部性原理，指出按行访问内存能有效提升性能，编译器会优化连续访问。讨论了高速缓存的工作机制，解释了不命中时的数据复制过程，并举例说明了矩阵乘法和转置优化，通过循环展开减少不命中率，显著提升计算速度。

摘要由CSDN通过智能技术生成

$(1)局部性:$

程序具有时间局部性和空间局部性.时间局部性是指当前用的存储器位置可能在不久的将来被用到,会被放入告诉缓存。空间局部性则是指一个存储器位置被用到,那么相邻的几个位置在不久的将来也可能被用到,也会被放入告诉缓存！

根据我在vs2013的测试,发现sum函数要比sum2快几十倍的速度,这完全得益于我们按照行来访问,这天然的符合vector的存储方式,另外在release情况下编译器会优化掉a[i][j],它会找一个临时变量 x = a[i],这样就不需要每次都去寻找a[i]了。

data_type sum(vector<vector<data_type>>& a,int k ){
    auto M = a.size(), N = a[0].size();
    data_type res = 0;
    for (size_t i = 0; i != M; ++i)
    {
        for (size_t j = 0; j != N; ++j)
            res +=a[i][j];
    }
    return res+k;
}
data_type sum2(vector<vector<data_type>>& a,int k){
        auto M = a.size(), N = a[0].size();
        data_type res = 0;
        for (size_t j = 0; j != N; ++j)
        {
            for (size_t i = 0; i != M; ++i)
                res += a[i][j];
        }

        return res+k;

}

再看一个关于空间局部性的例子:

struct point {
    int vec[3];
    int acc[3];
};
using p_array = vector<point>;

可以发现如果clear函数没有进行auto &p1 = p[i]的优化,编译器居然没有进行这样的优化,其原因不得而知,所以最好的办法是clear2这样,简单而且速度快。

void clear(p_array& p ){
    int n = p.size();
    for (int i = 0; i != n; ++i)
    {
        auto& p1 = p[i];//编译器没有对这里进行优化
        for (int j = 0; j != 3; ++j)
            p1.vec[j] = 0;
        for (

最低0.47元/天解锁文章

PYB不开心

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
CSAPP读书笔记第六章（优化cache命中率）

(1)局部性:(1)局部性:程序具有时间局部性和空间局部性.时间局部性是指当前用的存储器位置可能在不久的将来被用到,会被放入告诉缓存。空间局部性则是指一个存储器位置被用到,那么相邻的几个位置在不久的将来也可能被用到,也会被放入告诉缓存！根据我在vs2013的测试,发现sum函数要比sum2快几十倍的速度,这完全得益于我们按照行来访问,这天然的符合vector的存储方式,另外在release情况下编译
复制链接

扫一扫