cuda数据初始化libtorch tensor_libtorch 怎么释放显存-CSDN博客

本文链接：https://blog.csdn.net/qq_35054151/article/details/130533084

gpt：如何用显存cuda上memcpy的数据去初始化libtorch的tensor？

我们可以使用CUDA的cudaMemcpy()函数将数据从主机（CPU）内存复制到GPU内存，然后使用这些数据初始化libtorch中的Tensor对象。具体步骤如下：

定义一个指向主机内存中数据的指针，并分配一段大小为n * m的内存。n和m分别为矩阵的行数和列数。
对于给定大小的n和m，使用torch::empty()方法创建一个空的Tensor对象。要将Tensor对象复制到GPU内存，需要指定一个GPU设备并分配相应的显存。
使用cudaMemcpy()函数将主机内存中的数据复制到租借的GPU显存中。要在GPU上执行此操作，需要将主机内存中的指针和GPU内存中的指针传递给该函数。数据的大小由n * m * sizeof(float)给出，其中float为数据类型。
使用图像数据初始化Tensor对象。可以使用.to()方法将数据复制到GPU内存中，也可以使用.cuda()方法将Tensor移动到GPU设备上。
在程序中使用Tensor对象进行计算。

以下是示例代码：

#include <torch/torch.h>
#include <iostream>
#include <opencv2/opencv.hpp>
#include <cuda_runtime.h>
#include <iostream>
#include <device_launch_parameters.h>
#include <cuda_runtime_api.h>
int main() {
	// 假设要在显存中创建一个大小为12的浮点型数组
	int64_t size = 12;

	// 在显存中分配内存
	float* gpu_data;
	cudaMalloc(&gpu_data, size * sizeof(float));

	// 将数据填充为示例数值（仅作演示用途）
	float* host_data = new float[size];
	for (int i = 0; i < size; ++i) {
		host_data[i] = static_cast<float>(i);
	}

	// 将数据从主机内存复制到显存中
	cudaMemcpy(gpu_data, host_data, size * sizeof(float), cudaMemcpyHostToDevice);

	// 创建CUDA设备上的张量选项
	torch::TensorOptions options(torch::kFloat32);
	options = options.device(torch::kCUDA);

	// 从显存指针初始化张量
	torch::Tensor tensor = torch::from_blob(gpu_data, { size }, options);

	// 打印张量数值
	std::cout << "Tensor values: " << tensor << std::endl;

	// 释放显存内存
	cudaFree(gpu_data);
	delete[] host_data;

	return 0;
}

上述代码中，首先在主机内存中初始化了一个大小为$n \times m$的数据矩阵。通过指定设备类型和设备号创建empty()方法中的空Tensor，并将其上传到GPU设备。通过将CPU内存中的数据指针和GPU显存中的数据指针传递给cudaMemcpy()函数，将数组从主机内存复制到GPU内存中。最后使用from_blob()函数将GPU内存中的数据构造为Tensor对象，然后使用add_()函数增加1.0。最终，通过to()和data_ptr()函数将Tensor对象转换为主机内存中的数组，并打印结果。最后，释放所用内存。

需要注意的是，在GPU端对数据进行计算和操作时，需要使用GPU上支持的libtorch函数。例如，在上面的例子中，使用的是add_()方法，而不是普通的加法运算符。同样的，可以使用其他GPU计算支持的函数和方法来完成操作。

torch::from_blob 函数只能用于从主机内存中实例化张量，而不能从显存中实例化张量。对于从显存实例化张量，您可以使用 torch::CUDA 构造函数或 torch::to 函数。

在Lib