2022第一次学习任务
A.配置环境部分
一、安装虚拟机
(我之前电脑就是跑的双系统,所以…这部分好像没啥要做的)
二、安装OneAPI
(配置环境过程忘记记录了…这里贴一个安装完成后的截图)
三、安装HPL与HPCG
HPL
(编译过程还有文件编辑的部分没有做记录,贴一个结果)
(踩了一个坑,就是要用mpirun来运行编译出的程序,否则会出现以下报错)
HPCG(疑似成功)
编译后运行时候动态库没链接上去…
搜索一下,似乎确实没有这个库…(名字不一样是不是不算…)
(还以为是OneAPI中的组件,在installer里找后未果)
(在包管理器里找到了…但是这些奇奇怪怪的依赖都是啥(为啥会有wayland…先装再说吧…))
又是抽象的错误…虚拟地址没有映射都整出来了…只能去百度辽
(修改MPdir后运行是可以运行了但是电脑开始抽烟还不出结果…)
(查看输出结果发现是死循环…咋恁坑呐)
按度娘修改了hpcg.dat中最后一行的参数后,不会再出现WARNING(但是度娘上说要跑20min我就没跑了),应该算…安装成功了吧…
B.实操部分
一、Linux基础入门
(日常使用Linux,大致翻看了一下内容,假装完成了实训内容)
二、C\C++
(写的挺手熟了,假装完成了实训内容)
三、Shell
扩展学习部分
(简单学习了一下SIMD与OpenMP,还有一部分关于Kernel Tracing的学了一半因为国庆摆烂被鸽了(嘶)…所以就不贴了,之后一定努力补上)
SIMD & OPENMP
SIMD
什么是SIMD?
SIMD,即Single Instruction Multi Data,使用一条指令同时处理多个数据,以提供更高的的性能。
如何使用SIMD?
在支持SIMD指令集的CPU上即可使用,如果是编写C或Cpp,需要头文件immintrin.h
编译时需要加入对应的编译参数 (如 gcc -mavx2 是允许使用avx2指令集)
命名格式
寄存器
avx2包含16个256bits的寄存器,命名从YMM0 ~ YMM15,其中低128位可以作为XMM0 ~ XMM15 访问
在C语言封装后,命名为 __m+位宽+存储类型。
- __m256 表示宽度为256的寄存器中存储8个单精度浮点数
- __m256d 表示存储4个双精度浮点数
- __mm256i 表示存储的是整形
指令
在封装后,格式为 __mm<寄存器宽度>_<功能>_<操作数类型>,如 __mm256_add_epi16是将寄存器中的值作为16个16位整形相加
手册
https://www.laruence.com/sse/#techs=AVX,AVX2&expand=97,394,176,2943&cats=Arithmetic
示例
//优化前
int sum_array(int *arr, int len) {
int sum = 0;
for(int i = 0; i < len; ++i) {
sum += arr[i];
}
return sum;
}
//优化后
int sum_array_simd(int* arr, int len) {
int sum = 0;
__m256i res = _mm256_setzero_si256();
__m256i thread_res = _mm256_setzero_si256();
for (int i = 0; i < len - len % 8; i += 256 / 32)
thread_res
= _mm256_add_epi32(thread_res, _mm256_loadu_si256((__m256i*)(arr + i)));
res = _mm256_add_epi32(thread_res, res);
int tmp[8];
_mm256_storeu_si256((__m256i*)tmp, res);
for (int i = len - len % 8; i < len; i++)
sum += arr[i];
for (int i = 0; i < 8; i++)
sum += tmp[i];
return sum;
}
OPENMP
什么是OpenMP?
OpenMP是由OpenMP Architecture Review Board牵头提出的,并已被广泛接受,用于共享内存并行系统的多处理器程序设计的一套指导性编译处理方案。(简单来说就是方便开发并行程序,不用手动去创线程balabala)
如何使用OpenMP?
在头文件中加入 omp.h,并加入对应的编译选项(如gcc -fopenmp)
手册
https://math.ecnu.edu.cn/~jypan/Teaching/ParaComp/books/OpenMP_sun10.pdf
示例
//优化前
int sum_array(int* arr, int len) {
int sum = 0;
for (int i = 0; i < len; i++) {
sum += arr[i];
}
return sum;
}
//优化后
int sum_array_openmp(int* arr, int len) {
int sum = 0;
#pragma omp parallel for reduction(+ : sum) num_threads(16)
for (int i = 0; i < len; i++) {
sum += arr[i];
}
return sum;
}
使用OpenMP与AVX2综合优化
int sum_array(int* arr, int len) {
int sum = 0;
__m256i res = _mm256_setzero_si256();
#pragma omp parallel num_threads(16)
{
__m256i thread_res = _mm256_setzero_si256();
#pragma omp for
for (int i = 0; i < len - len % 8; i += 256 / 32) {
thread_res
= _mm256_add_epi32(thread_res, _mm256_loadu_si256((__m256i*)(arr + i)));
}
#pragma omp critical
res = _mm256_add_epi32(thread_res, res);
}
int tmp[8];
_mm256_storeu_si256((__m256i*)tmp, res);
for (int i = len - len % 8; i < len; i++)
sum += arr[i];
for (int i = 0; i < 8; i++)
sum += tmp[i];
return sum;
}