运行rocBLAS Example Code

109702008

于 2024-06-30 00:10:08 发布

阅读量1k

点赞数 19

分类专栏：人工智能 # ROCm # C++ 文章标签： c++ 开发语言人工智能

本文链接：https://blog.csdn.net/eidolon_foot/article/details/139999689

版权

人工智能同时被 3 个专栏收录

231 篇文章 3 订阅

订阅专栏

ROCm

25 篇文章 1 订阅

订阅专栏

C++

22 篇文章 0 订阅

订阅专栏

What is rocBLAS — rocBLAS 4.1.0 Documentation (amd.com)

$ apt show rocm-libs -a
Package: rocm-libs
Version: 6.1.1.60101-90~22.04
Priority: optional
Section: devel
Maintainer: ROCm Dev Support <rocm-dev.support@amd.com>
Installed-Size: 13.3 kB
Depends: hipblas (= 2.1.0.60101-90~22.04), hipblaslt (= 0.7.0.60101-90~22.04), hipfft (= 1.0.14.60101-90~22.04), hipsolver (= 2.1.1.60101-90~22.04), hipsparse (= 3.0.1.60101-90~22.04), hiptensor (= 1.2.0.60101-90~22.04), miopen-hip (= 3.1.0.60101-90~22.04), half (= 1.12.0.60101-90~22.04), rccl (= 2.18.6.60101-90~22.04), rocalution (= 3.1.1.60101-90~22.04), rocblas (= 4.1.0.60101-90~22.04), rocfft (= 1.0.27.60101-90~22.04), rocrand (= 3.0.1.60101-90~22.04), hiprand (= 2.10.16.60101-90~22.04), rocsolver (= 3.25.0.60101-90~22.04), rocsparse (= 3.1.2.60101-90~22.04), rocm-core (= 6.1.1.60101-90~22.04), hipsparselt (= 0.1.0.60101-90~22.04), composablekernel-dev (= 1.1.0.60101-90~22.04), hipblas-dev (= 2.1.0.60101-90~22.04), hipblaslt-dev (= 0.7.0.60101-90~22.04), hipcub-dev (= 3.1.0.60101-90~22.04), hipfft-dev (= 1.0.14.60101-90~22.04), hipsolver-dev (= 2.1.1.60101-90~22.04), hipsparse-dev (= 3.0.1.60101-90~22.04), hiptensor-dev (= 1.2.0.60101-90~22.04), miopen-hip-dev (= 3.1.0.60101-90~22.04), rccl-dev (= 2.18.6.60101-90~22.04), rocalution-dev (= 3.1.1.60101-90~22.04), rocblas-dev (= 4.1.0.60101-90~22.04), rocfft-dev (= 1.0.27.60101-90~22.04), rocprim-dev (= 3.1.0.60101-90~22.04), rocrand-dev (= 3.0.1.60101-90~22.04), hiprand-dev (= 2.10.16.60101-90~22.04), rocsolver-dev (= 3.25.0.60101-90~22.04), rocsparse-dev (= 3.1.2.60101-90~22.04), rocthrust-dev (= 3.0.1.60101-90~22.04), rocwmma-dev (= 1.4.0.60101-90~22.04), hipsparselt-dev (= 0.1.0.60101-90~22.04)
Homepage: https://github.com/RadeonOpenCompute/ROCm
Download-Size: 1,060 B
APT-Sources: https://repo.radeon.com/rocm/apt/6.1.1 jammy/main amd64 Packages
Description: Radeon Open Compute (ROCm) Runtime software stack

rocBLAS Example Code

#include <iostream>
#include <vector>
#include "hip/hip_runtime_api.h"
#include "rocblas.h"

using namespace std;

int main()
{
    rocblas_int n = 10240;
    float alpha = 10.0;

    vector<float> hx(n);
    vector<float> hz(n);
    float* dx;

    rocblas_handle handle;
    rocblas_create_handle(&handle);

    // allocate memory on device
    hipMalloc(&dx, n * sizeof(float));

    // Initial Data on CPU,
    srand(1);
    for( int i = 0; i < n; ++i )
    {
        hx[i] = rand() % 10 + 1;  //generate a integer number between [1, 10]
    }

    // copy array from host memory to device memory
    hipMemcpy(dx, hx.data(), sizeof(float) * n, hipMemcpyHostToDevice);

    // call rocBLAS function
    rocblas_status status = rocblas_sscal(handle, n, &alpha, dx, 1);

    // check status for errors
    if(status == rocblas_status_success)
    {
        cout << "status == rocblas_status_success" << endl;
    }
    else
    {
        cout << "rocblas failure: status = " << status << endl;
    }

    // copy output from device memory to host memory
    hipMemcpy(hx.data(), dx, sizeof(float) * n, hipMemcpyDeviceToHost);

    hipFree(dx);
    rocblas_destroy_handle(handle);
    return 0;
}

编译

export CPATH=/home/yong/include/rocblas/:$CPATH
hipcc rocblas_sample.cpp -o rocblas_sample -lrocblas -v

或者

hipcc rocblas_sample.cpp -o rocblas_sample -lrocblas -I /home/yong/include/rocblas/ -v

运行

$ ./rocblas_sample
status == rocblas_status_success

GPT-4o (OpenAI)

这段代码使用了HIP和rocBLAS库来在GPU上进行标量乘法。以下是对代码逐步的解释和分析：
1. 导入库和命名空间：
- 包括标准C++库的头文件和HIP、rocBLAS库头文件。
- 使用`namespace std`使代码更简洁。
2. 主函数：

   int main()
   {
       rocblas_int n = 10240;
       float alpha = 10.0;
       ...
   }

这里定义了一个整数`n`，表示向量的大小，以及一个浮点数`alpha`，用于标量乘法。
3. 定义并初始化向量：

   vector<float> hx(n);
   vector<float> hz(n);
   float* dx;

在主机端定义两个浮点向量`hx`和`hz`（大小为`n`），和一个指向设备内存的指针`dx`。
4. 创建rocBLAS句柄：

   rocblas_handle handle;
   rocblas_create_handle(&handle);

创建一个rocBLAS句柄，用于管理rocBLAS操作。
5. 设备内存分配：

   hipMalloc(&dx, n * sizeof(float));

在设备上分配大小为`n`的浮点数组`dx`。
6. 初始化数据：

   srand(1);
   for( int i = 0; i < n; ++i )
   {
       hx[i] = rand() % 10 + 1;  //generate an integer number between [1, 10]
   }

使用随机数生成器初始化主机端向量`hx`。
7. 数据从主机拷贝到设备：

   hipMemcpy(dx, hx.data(), sizeof(float) * n, hipMemcpyHostToDevice);

8. 调用rocBLAS函数进行标量乘法：

   rocblas_status status = rocblas_sscal(handle, n, &alpha, dx, 1);

9. 检查rocBLAS函数执行状态：

   if(status == rocblas_status_success)
   {
       cout << "status == rocblas_status_success" << endl;
   }
   else
   {
       cout << "rocblas failure: status = " << status << endl;
   }

10. 数据从设备拷贝回主机：

    hipMemcpy(hx.data(), dx, sizeof(float) * n, hipMemcpyDeviceToHost);

11. 释放资源：

    hipFree(dx);
    rocblas_destroy_handle(handle);
    return 0;

错误分析与解决方案
错误提示的是无法找到头文件`rocblas.h`：
fatal error: 'rocblas.h' file not found
#include "rocblas.h"
^~~~~~~~~~~
这个错误通常是由于包含路径设置不正确导致编译器找不到头文件。要解决这个问题，需要确保编译器正确配置了rocBLAS库的包含路径和链接路径。
1. 确认rocBLAS安装路径并添加到包含路径：
假设rocBLAS的头文件路径为`/path/to/rocblas/include`，库文件路径为`/path/to/rocblas/lib`，编译时需要添加这些路径。
2. 添加包含路径和库路径：
假设使用`g++`编译器，命令可能如下：

   g++ rocblas_sample.cpp -o rocblas_sample -I/path/to/rocblas/include -L/path/to/rocblas/lib -lrocblas -lamdhip64

- -I/path/to/rocblas/include：指示编译器在此目录下搜索头文件。
- -L/path/to/rocblas/lib：指示编译器在此目录下搜索库文件。
- -lrocblas：链接rocBLAS库。
- -lamdhip64：链接HIP库。
### 验证环境
1. 确保已安装rocm及相关工具包：

   sudo apt install rocm-dev hipblas-dev rocblas-dev

2. 确保环境变量正确设置：

   export PATH=/opt/rocm/bin:$PATH
   export LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH

3. 验证rocBLAS库文件是否存在于`/opt/rocm/rocblas/lib`目录下，同时验证头文件在`/opt/rocm/rocblas/include`目录下。

GPT-3.5 (OpenAI)

这段代码使用了ROCm提供的rocBLAS库实现了一个单精度浮点数的向量乘法。具体来说，它执行以下步骤：
1. 定义向量长度n和乘法的标量alpha。
2. 在CPU上分配两个长度为n的向量hx和hz。
3. 在GPU上分配一个长度为n的向量dx。
4. 在CPU上给hx向量赋值随机生成的1到10之间的整数。
5. 把hx向量从主机内存复制到设备内存。
6. 调用rocBLAS库中的rocblas_sscal函数，实现向量乘法。
7. 检查rocBLAS函数的返回值，如果成功则输出信息。
8. 把设备内存中的dx向量结果复制回主机内存的hx向量中。
9. 释放设备内存和rocBLAS句柄。
其中，rocblas_sscal函数的作用是对矢量进行标量乘法，即对矢量中的每个元素都乘以一个标量alpha。参数说明如下：
- handle：rocBLAS库的句柄，表示rocBLAS库的一个实例。需要先使用rocblas_create_handle函数创建句柄，使用后需要用rocblas_destroy_handle函数销毁。
- n：矢量的长度。
- alpha：标量值。
- dx：输入/输出的矢量，可以是设备内存空间。
- incx：矢量的步长，表示两个相邻元素之间的距离，通常为1。

Claude3 Opus

这段代码是一个使用rocBLAS库进行单精度向量缩放的示例程序。以下是代码的分析：
1. 首先，包含了必要的头文件，包括iostream、vector、hip/hip_runtime_api.h和rocblas.h。
2. 在main函数中，定义了需要操作的向量的大小n和缩放因子alpha。
3. 创建了用于存储向量的CPU向量hx和用于存储结果的CPU向量hz，以及用于存储向量的GPU内存dx。
4. 创建了rocBLAS的句柄handle，并通过rocblas_create_handle函数进行初始化。
5. 在GPU上分配了内存，使用hipMalloc函数分配了大小为n*sizeof(float)的内存。
6. 生成了随机的初始数据，在CPU上使用srand和rand函数生成了大小为n的随机数向量hx。
7. 使用hipMemcpy函数将CPU向量hx的数据复制到GPU内存dx。
8. 调用rocBLAS的sscal函数进行向量缩放操作。sscal函数会将向量dx的每个元素乘以alpha。
9. 检查缩放操作的状态，如果状态为rocblas_status_success，则输出"status == rocblas_status_success"；否则，输出"rocblas failure: status = "并打印状态。
10. 使用hipMemcpy函数将缩放后的结果从GPU内存dx复制到CPU向量hx。
11. 释放GPU内存dx和rocBLAS句柄handle。
12. 主函数返回0，表示程序执行成功。
这段代码示例展示了如何使用rocBLAS库进行单精度向量缩放，包括分配内存、数据传输和调用rocBLAS函数。您可以根据该示例来编写其他使用rocBLAS库的程序。如果您有任何问题，请随时提问。

109702008

关注

19
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
1
评论
运行rocBLAS Example Code

handle：rocBLAS库的句柄，表示rocBLAS库的一个实例。假设rocBLAS的头文件路径为`/path/to/rocblas/include`，库文件路径为`/path/to/rocblas/lib`，编译时需要添加这些路径。3. 验证rocBLAS库文件是否存在于`/opt/rocm/rocblas/lib`目录下，同时验证头文件在`/opt/rocm/rocblas/include`目录下。在主机端定义两个浮点向量`hx`和`hz`（大小为`n`），和一个指向设备内存的指针`dx`。
复制链接

扫一扫