小马敲马-CSDN博客

原创 cuda编程：怎么用2维网格2维块计算矩阵加法

一个线程在网格中的块的索引是ix = threadIdx.x + blockIdx.x * blockDim.x和iy = threadIdx.y + blockIdx.y * blockDim.y。//查看当前可用GPU设备数并将可用device设置为0。这样就可以输出结果。

2024-07-25 22:07:31 838

原创 cuda编程：怎么调用API看自己的架构并计算核心数量

，这里的device_id就是你的显卡id，默认是0，如果是多卡就是0，1，2这样。看上面的运行图可以看到有一个计算能力结果是8.9，这个是通过device_prop.major和device_prop.minor得到参数，所以我现在这个4060显卡的主次版本号分别是8和9。可以看到这个API的修饰符有__host__和__cudaError_t，意思是这个API在主机中调用，且错误返回的类型是__cudaError_t。可以看到我的4060显卡是安培架构，有3072个cuda核心。这样就可以输出结果。

2024-07-25 14:57:48 434

原创训练自己的SETR和VIT模型

因为最近在发论文需要对之前的模型复现并记录完整的数据，结果没有找到一个完整的代码可以让SETR在torch框架中训练，有的是缺少dataloader，有的是缺少train.py，有的是只有一个网络结构代码。所以我将SETR和VIT的结构整合在了一起，并且加入了dataloader，训练，预测，评估每个类别的iou、recall等等参数的功能。代码结构如下（目前，持续更新中。。。。。

2024-07-18 11:25:17 758

原创 Deeplabv3+训练aeroscapes

修改train.py中的num_classes为12，其他都没动即可训练。，可以直接gitclone也可以下载zip然后解压。将aeroscape数据集改名为VOC2007。predict.py十分详细的中文注释，一键运行。然后变一下结构放到VOCdevkit中，如图。

2024-07-16 14:19:12 291 1

原创 FCN训练Aeroscapes数据集

首先我要用aeroscpaes数据集训练fcn8s，所以开始对examples/voc/train_fcn8s.py中的代码进行修改。train_fcn8s.py中调用train_fcn32s.py的git_hash函数全部删除了，因为这个函数就是输出当前code的版本，这里又会涉及到代理问题，所以删除了不影响。解压model_best.pth.tar，模型现在加载这个model_best.pth测试即可。代码目录结构如下（接下来用的数据集是aeroscapes，所以要改一些数据集加载的代码）

2024-07-16 14:08:17 378

原创 cuda C++ 编程指南第六章编程接口（上）

英伟达《CUDA C++ Programming Guide》官方文档学习记录笔记版本【Release 12.4】出版时间【 Apr 22, 2024】持续更新中。。。。。。

2024-07-12 11:07:47 807

原创 cuda C++ 编程指南第五章编程模型（下）

基于 NVIDIA Hopper GPU 架构的设备的主要修订数为 9，基于 NVIDIA Ampere GPU 架构的设备为 8，基于 Volta 架构的设备为 7，基于 Pascal 架构的设备为 6，基于 Maxwell 架构的设备为 5，基于开普勒架构的设备为 3。图灵是计算能力为7.5的设备的架构，是基于Volta架构的增量更新。每个线程都有私有的本地内存，每个线程块对块的所有线程都有可见的共享内存，每个线程块集群中的线程块可以对彼此的共享内存执行读取、写入和同步操作。

2024-06-09 20:12:34 719

原创 cuda C++ 编程指南第五章编程模型（上）

1.定义：CUDA C++通过定义C++函数拓展C++，称为内核（kernels）。调用该内核时，由N个不同的cuda线程并行执行N次。2.__global__来定义内核，来执行配置。3.执行时每个线程（thread）有一个单独ID，该ID可以由内置变量再内核内访问。

2024-06-05 19:06:12 409

原创 windows的vscode配置cuda编码环境

windows的vscode配置cuda编码环境。

2024-05-23 17:57:25 1399

原创 Autofocusformer的空间聚类用在局部注意力有参考价值吗？

你想知道对应CVPR 2023论文（autofocusformer）的代码是什么逻辑吗

2024-01-23 16:46:55 1106

原创 CVPR 2023 autofocusformer核心部分翻译

与此形成对比的是,对于一个无序的点集,确定3D点云中的邻域的传统方法依赖于诸如k近邻(kNN)等算法,它计算点之间的成对距离。有趣的是,许多加速kNN的算法的第一步都是在给定的点上进行k-means聚类,以减少邻域搜索的空间。因为我们可以在O(1)时间内通过简单量化它们的坐标来找到每个tokens对应的空间填充锚点,所以聚类的总体时间复杂度不超过对局部补丁中的所有tokens位置进行一次排序,与网络的时间复杂度相比可以忽略不计,因为没有涉及到特征通道。这是有利的,因为邻域是重叠的,保证了簇之间的信息交换。

2024-01-23 14:27:58 994

翻译 Prognostics and Health Management (PHM): Where are we and where do we go in theory and practice

We are performing the digital transition of industry, living the 4th industrial revolution, building a new World in which the digital, physical and human dimensions are interrelated in complex socio-cyber-physical systems. For the sustainability of these t

2023-10-16 17:03:18 268

buuliuda的博客