2022第一次学习任务

2022第一次学习任务

A.配置环境部分

一、安装虚拟机

(我之前电脑就是跑的双系统,所以…这部分好像没啥要做的)

二、安装OneAPI

(配置环境过程忘记记录了…这里贴一个安装完成后的截图)

在这里插入图片描述

三、安装HPL与HPCG

HPL

(编译过程还有文件编辑的部分没有做记录,贴一个结果)

在这里插入图片描述

(踩了一个坑,就是要用mpirun来运行编译出的程序,否则会出现以下报错)

在这里插入图片描述

HPCG(疑似成功)

在这里插入图片描述

编译后运行时候动态库没链接上去…

在这里插入图片描述

搜索一下,似乎确实没有这个库…(名字不一样是不是不算…)

在这里插入图片描述

(还以为是OneAPI中的组件,在installer里找后未果)

在这里插入图片描述

(在包管理器里找到了…但是这些奇奇怪怪的依赖都是啥(为啥会有wayland…先装再说吧…))

在这里插入图片描述

又是抽象的错误…虚拟地址没有映射都整出来了…只能去百度辽

在这里插入图片描述

(修改MPdir后运行是可以运行了但是电脑开始抽烟还不出结果…)

在这里插入图片描述

(查看输出结果发现是死循环…咋恁坑呐)

按度娘修改了hpcg.dat中最后一行的参数后,不会再出现WARNING(但是度娘上说要跑20min我就没跑了),应该算…安装成功了吧…

B.实操部分

一、Linux基础入门

(日常使用Linux,大致翻看了一下内容,假装完成了实训内容)

二、C\C++

(写的挺手熟了,假装完成了实训内容)

三、Shell

扩展学习部分

(简单学习了一下SIMD与OpenMP,还有一部分关于Kernel Tracing的学了一半因为国庆摆烂被鸽了(嘶)…所以就不贴了,之后一定努力补上)

SIMD & OPENMP

SIMD

什么是SIMD?

​ SIMD,即Single Instruction Multi Data,使用一条指令同时处理多个数据,以提供更高的的性能。

如何使用SIMD?

​ 在支持SIMD指令集的CPU上即可使用,如果是编写C或Cpp,需要头文件immintrin.h

编译时需要加入对应的编译参数 (如 gcc -mavx2 是允许使用avx2指令集)

命名格式
寄存器

​ avx2包含16个256bits的寄存器,命名从YMM0 ~ YMM15,其中低128位可以作为XMM0 ~ XMM15 访问

​ 在C语言封装后,命名为 __m+位宽+存储类型。

  • __m256 表示宽度为256的寄存器中存储8个单精度浮点数
  • __m256d 表示存储4个双精度浮点数
  • __mm256i 表示存储的是整形
指令

​ 在封装后,格式为 __mm<寄存器宽度>_<功能>_<操作数类型>,如 __mm256_add_epi16是将寄存器中的值作为16个16位整形相加

手册

https://www.laruence.com/sse/#techs=AVX,AVX2&expand=97,394,176,2943&cats=Arithmetic

示例
//优化前
int sum_array(int *arr, int len) {
  	int sum = 0;
  	for(int i = 0; i < len; ++i) {
    	sum += arr[i];
	}
	return sum;
}

//优化后
int sum_array_simd(int* arr, int len) {
    int sum = 0;
    __m256i res = _mm256_setzero_si256();
    __m256i thread_res = _mm256_setzero_si256();
    for (int i = 0; i < len - len % 8; i += 256 / 32)
        thread_res 
          = _mm256_add_epi32(thread_res, _mm256_loadu_si256((__m256i*)(arr + i)));
    res = _mm256_add_epi32(thread_res, res);
    int tmp[8];
    _mm256_storeu_si256((__m256i*)tmp, res);
    for (int i = len - len % 8; i < len; i++)
        sum += arr[i];
    for (int i = 0; i < 8; i++)
        sum += tmp[i];
    return sum;
}

OPENMP

什么是OpenMP?

​ OpenMP是由OpenMP Architecture Review Board牵头提出的,并已被广泛接受,用于共享内存并行系统的多处理器程序设计的一套指导性编译处理方案。(简单来说就是方便开发并行程序,不用手动去创线程balabala)

如何使用OpenMP?

​ 在头文件中加入 omp.h,并加入对应的编译选项(如gcc -fopenmp)

手册

https://math.ecnu.edu.cn/~jypan/Teaching/ParaComp/books/OpenMP_sun10.pdf

示例
//优化前
int sum_array(int* arr, int len) {
    int sum = 0;
    for (int i = 0; i < len; i++) {
        sum += arr[i];
    }
    return sum;
}

//优化后
int sum_array_openmp(int* arr, int len) {
    int sum = 0;
    #pragma omp parallel for reduction(+ : sum) num_threads(16)
    for (int i = 0; i < len; i++) {
        sum += arr[i];
    }
    return sum;
}

使用OpenMP与AVX2综合优化

int sum_array(int* arr, int len) {
    int sum = 0;
    __m256i res = _mm256_setzero_si256();
    #pragma omp parallel num_threads(16)
    {
        __m256i thread_res = _mm256_setzero_si256();
        #pragma omp for
        for (int i = 0; i < len - len % 8; i += 256 / 32) {
            thread_res 
              = _mm256_add_epi32(thread_res, _mm256_loadu_si256((__m256i*)(arr + i)));
        }
        #pragma omp critical
        res = _mm256_add_epi32(thread_res, res);
    }
    int tmp[8];
    _mm256_storeu_si256((__m256i*)tmp, res);
    for (int i = len - len % 8; i < len; i++)
        sum += arr[i];
    for (int i = 0; i < 8; i++)
        sum += tmp[i];
    return sum;
}
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值